1 PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi informasi dan kemampuan komputasi telah menyebabkan meningkatnya ketersediaan data dalam berbagai bidang, seperti kesehatan, transportasi, industri pangan, ekonomi, dan pariwisata. Ketersediaan data yang semakin besar mendorong kebutuhan akan metode analisis statistik yang mampu menjelaskan hubungan antara suatu variabel respon dengan sejumlah variabel prediktor secara tepat dan akurat. Salah satu metode yang paling sering digunakan dalam analisis hubungan antarvariabel adalah regresi.

Regresi linear merupakan metode statistik yang umum digunakan untuk memodelkan hubungan antara variabel respon dan variabel prediktor. Akan tetapi, regresi linear klasik memiliki beberapa asumsi penting, seperti variabel respon harus bersifat kontinu, galat berdistribusi normal, memiliki ragam yang homogen (homoskedastisitas), dan hubungan antara variabel respon dengan prediktor bersifat linear. Dalam praktiknya, banyak penelitian yang melibatkan variabel respon yang tidak memenuhi karakteristik tersebut, misalnya data dengan kategori dua kelas (ya/tidak), data dengan kategori lebih dari dua kelas, data dengan tingkatan tertentu, maupun data berupa jumlah kejadian atau frekuensi. Pada kondisi demikian, penggunaan regresi linear dapat menghasilkan estimasi yang bias, prediksi yang tidak realistis, serta kesimpulan yang kurang tepat (Hosmer, Lemeshow, & Sturdivant, 2013).

Untuk mengatasi keterbatasan tersebut, dikembangkan suatu kerangka pemodelan yang lebih fleksibel yang dikenal sebagai Generalized Linear Model (GLM). Menurut McCullagh dan Nelder (1989), GLM merupakan perluasan dari model regresi linear klasik yang memungkinkan variabel respon mengikuti distribusi selain distribusi normal dan menghubungkan nilai harapan variabel respon dengan kombinasi linear variabel prediktor melalui suatu fungsi penghubung (link function). Kerangka GLM memungkinkan analisis terhadap berbagai jenis data, seperti data biner, data nominal, data ordinal, maupun data hitung.

Dalam keluarga GLM terdapat beberapa model yang sering digunakan sesuai dengan karakteristik variabel respon. Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kategori, misalnya seseorang menderita diabetes atau tidak menderita diabetes. Regresi logistik multinomial digunakan ketika variabel respon memiliki lebih dari dua kategori yang tidak memiliki urutan tertentu, misalnya pilihan moda transportasi. Regresi logistik ordinal digunakan ketika variabel respon memiliki tingkatan atau urutan tertentu, misalnya kualitas produk yang diklasifikasikan dalam kategori rendah, sedang, dan tinggi. Sementara itu, regresi Poisson digunakan ketika variabel respon berupa data hitung (count data), seperti jumlah kunjungan wisatawan, jumlah kecelakaan, atau jumlah kejadian penyakit tertentu (Agresti, 2018).

Regresi logistik biner merupakan salah satu model yang paling banyak digunakan dalam penelitian kesehatan dan epidemiologi. Model ini digunakan untuk menjelaskan peluang terjadinya suatu kejadian berdasarkan sejumlah faktor risiko. Dalam penelitian ini, regresi logistik biner diterapkan pada data diabetes dengan variabel respon berupa status diabetes (Outcome) dan sejumlah variabel prediktor yang meliputi Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, dan Age. Analisis ini bertujuan untuk mengidentifikasi faktor-faktor yang berpengaruh terhadap kemungkinan seseorang menderita diabetes.

Selain data biner, terdapat pula kasus ketika variabel respon memiliki lebih dari dua kategori tanpa urutan tertentu. Pada kondisi tersebut digunakan regresi logistik multinomial. Model ini memungkinkan peneliti untuk membandingkan peluang suatu kategori terhadap kategori referensi dan mengevaluasi pengaruh variabel prediktor terhadap setiap pilihan yang tersedia. Dalam penelitian ini, regresi logistik multinomial diterapkan pada data pemilihan moda transportasi (Mode Choice) dengan variabel respon berupa pilihan moda (choice) dan variabel prediktor berupa ttme, invc, invt, gc, hinc, dan psize.

Pada beberapa kasus, kategori respon memiliki urutan alami yang tidak dapat diabaikan. Sebagai contoh, kualitas suatu produk dapat diklasifikasikan menjadi rendah, sedang, dan tinggi. Untuk data seperti ini, regresi logistik ordinal menjadi metode yang lebih tepat karena mempertimbangkan informasi urutan kategori tersebut. Dalam penelitian ini, regresi logistik ordinal diterapkan pada data kualitas wine (Wine Quality) dengan variabel respon berupa tingkat kualitas wine (quality) dan sejumlah karakteristik kimia wine sebagai variabel prediktor.

Selanjutnya, banyak fenomena nyata yang menghasilkan data berupa jumlah kejadian atau frekuensi. Contohnya adalah jumlah perjalanan wisatawan, jumlah kunjungan rumah sakit, jumlah kecelakaan lalu lintas, dan jumlah kasus penyakit tertentu. Untuk data semacam ini, regresi Poisson merupakan metode yang umum digunakan karena didasarkan pada distribusi Poisson yang dirancang untuk memodelkan data hitung. Pada penelitian ini, regresi Poisson digunakan untuk menganalisis jumlah perjalanan wisatawan berdasarkan faktor-faktor ekonomi dan infrastruktur yang tersedia.

Melalui penerapan keempat model tersebut, penelitian ini diharapkan dapat memberikan pemahaman yang komprehensif mengenai penggunaan model-model dalam keluarga GLM sesuai dengan karakteristik data yang dianalisis. Selain itu, penelitian ini juga memberikan gambaran mengenai proses analisis mulai dari eksplorasi data, pembentukan model, evaluasi model, hingga interpretasi hasil yang dapat digunakan sebagai dasar pengambilan keputusan dan penyusunan kebijakan berbasis data.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dalam penelitian ini adalah sebagai berikut:

  1. Bagaimana menerapkan regresi logistik biner untuk mengidentifikasi faktor-faktor yang memengaruhi status diabetes seseorang?

  2. Bagaimana menerapkan regresi logistik multinomial untuk menganalisis faktor-faktor yang memengaruhi pemilihan moda transportasi?

  3. Bagaimana menerapkan regresi logistik ordinal untuk mengidentifikasi faktor-faktor yang memengaruhi kualitas wine?

  4. Bagaimana menerapkan regresi Poisson untuk menganalisis faktor-faktor yang memengaruhi jumlah perjalanan wisatawan?

  5. Bagaimana mengevaluasi dan menginterpretasikan hasil dari masing-masing model berdasarkan karakteristik data yang digunakan?

1.3 Tujuan Analisis

Tujuan dari penelitian ini adalah:

  1. Mempelajari konsep teoritis regresi logistik biner beserta implementasinya menggunakan software R.

  2. Mempelajari konsep teoritis regresi logistik multinomial beserta implementasinya menggunakan software R.

  3. Mempelajari konsep teoritis regresi logistik ordinal beserta implementasinya menggunakan software R.

  4. Mempelajari konsep teoritis regresi Poisson beserta implementasinya menggunakan software R.

  5. Mengidentifikasi faktor-faktor yang berpengaruh terhadap status diabetes menggunakan regresi logistik biner.

  6. Mengidentifikasi faktor-faktor yang memengaruhi pemilihan moda transportasi menggunakan regresi logistik multinomial.

  7. Mengidentifikasi faktor-faktor yang memengaruhi kualitas wine menggunakan regresi logistik ordinal.

  8. Mengidentifikasi faktor-faktor yang memengaruhi jumlah perjalanan wisatawan menggunakan regresi Poisson.

  9. Membandingkan karakteristik, interpretasi, dan hasil dari masing-masing model regresi yang digunakan.

1.4 Manfaat Analisis

Penelitian ini diharapkan memberikan manfaat sebagai berikut:

  1. Menambah pemahaman mengenai konsep dan penerapan Generalized Linear Model (GLM).

  2. Menjadi referensi pembelajaran mengenai regresi logistik biner, multinomial, ordinal, dan Poisson.

  3. Memberikan contoh implementasi berbagai model regresi kategorik dan data hitung menggunakan perangkat lunak R.

  4. Memberikan informasi mengenai faktor-faktor yang memengaruhi risiko diabetes.

  5. Memberikan gambaran faktor-faktor yang memengaruhi pemilihan moda transportasi.

  6. Memberikan informasi mengenai karakteristik yang berpengaruh terhadap kualitas wine.

  7. Memberikan informasi mengenai faktor-faktor yang memengaruhi jumlah perjalanan wisatawan sehingga dapat menjadi bahan pertimbangan dalam sektor pariwisata.

1.5 Generalized Linear Model (GLM)

Generalized Linear Model (GLM) merupakan perluasan dari model regresi linear klasik yang memungkinkan variabel respon mengikuti distribusi selain distribusi normal. Menurut McCullagh dan Nelder (1989), GLM terdiri atas tiga komponen utama, yaitu:

  1. Komponen Acak (Random Component), yaitu distribusi probabilitas dari variabel respon.

  2. Komponen Sistematik (Systematic Component), yaitu kombinasi linear variabel prediktor.

  3. Fungsi Link (Link Function), yaitu fungsi yang menghubungkan nilai harapan variabel respon dengan prediktor linear.

Secara umum GLM dituliskan sebagai:

\[g(\mu_i)=\eta_i\]

dengan

\[\mu_i=E(Y_i)\]

dan

\[\eta_i=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p\]

di mana:

  • \(g(\cdot)\) : fungsi link
  • \(\mu_i\) : nilai harapan variabel respon
  • \(\eta_i\) : prediktor linear
  • \(\beta_j\) : parameter model
  • \(X_j\) : variabel prediktor

Pemilihan distribusi dan fungsi link bergantung pada karakteristik variabel respon yang dianalisis, yaitu:

Model Jenis Respon Distribusi Fungsi Link
Regresi Logistik Biner Biner Binomial Logit
Regresi Logistik Multinomial Nominal Multinomial Generalized Logit
Regresi Logistik Ordinal Ordinal Multinomial Cumulative Logit
Regresi Poisson Count Data Poisson Log

Keunggulan utama GLM adalah kemampuannya menangani berbagai tipe data yang tidak dapat dianalisis secara tepat menggunakan regresi linear klasik. Oleh karena itu, GLM menjadi salah satu pendekatan yang paling banyak digunakan dalam penelitian kesehatan, ekonomi, sosial, transportasi, industri, dan pariwisata.

1.6 Alur Analisis

Laporan ini disusun dalam beberapa bagian utama sebagai berikut:

  • Bab I Pendahuluan, berisi latar belakang, rumusan masalah, tujuan, manfaat, dan konsep dasar GLM.

  • Bab II Regresi Logistik Biner, membahas teori dan penerapan regresi logistik biner pada data diabetes.

  • Bab III Regresi Logistik Multinomial, membahas teori dan penerapan regresi logistik multinomial pada data pemilihan moda transportasi.

  • Bab IV Regresi Logistik Ordinal, membahas teori dan penerapan regresi logistik ordinal pada data kualitas wine.

  • Bab V Regresi Poisson, membahas teori dan penerapan regresi Poisson pada data perjalanan wisatawan serta evaluasi menggunakan model Negative Binomial.

  • Bab VI Perbandingan Model, membahas perbandingan karakteristik dan hasil keempat model.

  • Interpretasi & Kesimpulan, berisi rangkuman hasil analisis dan insight yang diperoleh.

2 REGRESI LOGISTIK BINER

2.1 Teori

Regresi logistik biner merupakan salah satu anggota keluarga Generalized Linear Model (GLM) yang digunakan untuk memodelkan hubungan antara variabel respon kategorik yang terdiri atas dua kategori dengan satu atau lebih variabel prediktor (Hosmer, Lemeshow, & Sturdivant, 2013).

Berbeda dengan regresi linear yang memodelkan nilai rata-rata variabel respon secara langsung, regresi logistik memodelkan probabilitas terjadinya suatu kejadian (event). Pendekatan ini digunakan ketika variabel respon bersifat dikotomik atau hanya memiliki dua kemungkinan hasil.

Beberapa contoh penggunaan regresi logistik biner antara lain:

  • Status penyakit (sakit atau tidak sakit)
  • Kelulusan mahasiswa (lulus atau tidak lulus)
  • Status pekerjaan (bekerja atau tidak bekerja)
  • Keputusan pembelian (ya atau tidak)
  • Status kredit (lancar atau macet)

Karena variabel respon bersifat kategorik, penggunaan regresi linear tidak sesuai karena dapat menghasilkan nilai prediksi di luar rentang probabilitas. Oleh karena itu digunakan fungsi logistik yang menjamin nilai probabilitas selalu berada pada interval:

\[0 \le P(Y=1) \le 1\]

Dalam kerangka Generalized Linear Model (GLM), regresi logistik biner menggunakan:

  • Distribusi respon: Binomial
  • Fungsi link: Logit
  • Prediktor linear:

\[\eta_i = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]

dengan:

\[\eta_i = \log \left( \frac{\pi_i} {1-\pi_i} \right)\]

(McCullagh & Nelder, 1989).

Variabel Respon Biner

Misalkan variabel respon dinyatakan sebagai:

\[Y= \begin{cases} 1, & \text{jika kejadian terjadi} \\ 0, & \text{jika kejadian tidak terjadi} \end{cases}\]

Peluang terjadinya kejadian dinyatakan sebagai:

\[P(Y=1)=\pi(x)\]

sedangkan peluang tidak terjadinya kejadian adalah:

\[P(Y=0)=1-\pi(x)\]

Karena hanya terdapat dua kemungkinan hasil, maka jumlah kedua probabilitas tersebut harus memenuhi:

\[P(Y=1)+P(Y=0)=1\]

Distribusi Bernoulli

Untuk satu observasi, variabel respon mengikuti distribusi Bernoulli dengan fungsi probabilitas:

\[f(y) = \pi(x)^y [1-\pi(x)]^{1-y}\]

untuk:

\[y=0,1\]

dengan:

Simbol Keterangan
\(y\) Nilai observasi
\(\pi(x)\) Probabilitas kejadian
\(1-\pi(x)\) Probabilitas tidak terjadi kejadian

Distribusi Bernoulli merupakan bentuk khusus dari distribusi Binomial ketika jumlah percobaan sama dengan satu.

Odds

Selain probabilitas, regresi logistik menggunakan konsep odds.

Odds didefinisikan sebagai:

\[Odds = \frac{\pi(x)} {1-\pi(x)}\]

Odds menunjukkan perbandingan antara peluang terjadinya suatu kejadian terhadap peluang tidak terjadinya kejadian.

Sebagai contoh, apabila:

\[\pi(x)=0.80\]

maka:

\[Odds= \frac{0.80}{0.20} = 4\]

Artinya peluang terjadinya kejadian empat kali lebih besar dibandingkan peluang tidak terjadinya kejadian.

Fungsi Logistik

Model regresi logistik biner dinyatakan sebagai:

\[\pi(x) = \frac{ \exp ( \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p ) } { 1+ \exp ( \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p ) }\]

Persamaan tersebut dikenal sebagai fungsi logistik (logistic function).

Fungsi logistik menghasilkan kurva berbentuk huruf S (sigmoid curve) yang memungkinkan probabilitas berubah secara nonlinier terhadap perubahan variabel prediktor.

Keunggulan fungsi logistik adalah mampu menghasilkan nilai probabilitas yang selalu berada pada rentang:

\[0 \le \pi(x) \le 1\]

Transformasi Logit

Karena hubungan antara probabilitas dan variabel prediktor bersifat nonlinier, dilakukan transformasi menggunakan fungsi logit sehingga diperoleh hubungan linear.

Transformasi logit dinyatakan sebagai:

\[\log \left( \frac{\pi(x)} {1-\pi(x)} \right) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]

Persamaan tersebut disebut sebagai model logit.

Model logit menunjukkan bahwa logaritma odds kejadian merupakan fungsi linear dari variabel prediktor.

Interpretasi Koefisien

Koefisien regresi logistik menunjukkan perubahan log-odds akibat peningkatan satu satuan variabel prediktor.

Jika:

\[\beta_j>0\]

maka peluang kejadian cenderung meningkat.

Sebaliknya jika:

\[\beta_j<0\]

maka peluang kejadian cenderung menurun.

Karena interpretasi log-odds relatif sulit dipahami, maka koefisien umumnya ditransformasikan menjadi Odds Ratio.

Odds Ratio (OR)

Interpretasi parameter regresi logistik dilakukan menggunakan Odds Ratio (OR):

\[OR=e^{\beta_j}\]

Odds Ratio menunjukkan perubahan odds terjadinya suatu kejadian akibat peningkatan satu satuan variabel prediktor dengan asumsi variabel lain tetap (ceteris paribus).

Interpretasi:

  • \(OR>1\) menunjukkan peningkatan peluang kejadian.
  • \(OR<1\) menunjukkan penurunan peluang kejadian.
  • \(OR=1\) menunjukkan tidak terdapat pengaruh.

Sebagai contoh:

\[OR=1.50\]

menunjukkan bahwa kenaikan satu satuan variabel prediktor meningkatkan odds kejadian sebesar:

\[(1.50-1)\times100\% = 50\%\]

Sebaliknya:

\[OR=0.80\]

menunjukkan bahwa kenaikan satu satuan variabel prediktor menurunkan odds kejadian sebesar:

\[(1-0.80)\times100\% = 20\%\]

Estimasi Parameter

Parameter regresi logistik diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).

Fungsi likelihood dituliskan sebagai:

\[L(\beta) = \prod_{i=1}^{n} \pi_i^{y_i} (1-\pi_i)^{1-y_i}\]

Kemudian dilakukan optimasi terhadap fungsi log-likelihood:

\[\ell(\beta) = \sum_{i=1}^{n} \left[ y_i\ln(\pi_i) + (1-y_i)\ln(1-\pi_i) \right]\]

Estimasi parameter diperoleh menggunakan prosedur iteratif seperti Newton-Raphson atau Fisher Scoring.

Pengujian Parameter

Signifikansi parameter dapat diuji menggunakan statistik Wald:

\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]

Hipotesis yang diuji adalah:

\[H_0:\beta_j=0\]

\[H_1:\beta_j\neq0\]

Kriteria keputusan:

\[p\text{-value}<0.05\]

menunjukkan bahwa variabel prediktor berpengaruh signifikan terhadap probabilitas kejadian.

Kesesuaian Model (Goodness of Fit)

Kesesuaian model regresi logistik dapat dievaluasi menggunakan Uji Hosmer-Lemeshow.

Hipotesis yang diuji adalah:

\[H_0: \text{Model sesuai dengan data}\]

\[H_1: \text{Model tidak sesuai dengan data}\]

Apabila:

\[p\text{-value}>0.05\]

maka model dianggap memiliki kecocokan yang baik terhadap data.

Selain itu dapat digunakan ukuran lain seperti:

  • Deviance
  • Akaike Information Criterion (AIC)
  • Pseudo-\(R^2\)

Evaluasi Kemampuan Klasifikasi

Kemampuan prediksi model dapat dievaluasi menggunakan confusion matrix.

Ukuran yang umum digunakan meliputi:

Accuracy

\[Accuracy = \frac{TP+TN} {TP+TN+FP+FN}\]

Sensitivity

\[Sensitivity = \frac{TP} {TP+FN}\]

Specificity

\[Specificity = \frac{TN} {TN+FP}\]

dengan:

  • TP = True Positive
  • TN = True Negative
  • FP = False Positive
  • FN = False Negative

Semakin tinggi nilai accuracy, sensitivity, dan specificity menunjukkan kemampuan klasifikasi model yang semakin baik.

2.2 Asumsi

Beberapa asumsi penting regresi logistik biner adalah:

  1. Variabel respon bersifat dikotomik.
  2. Observasi saling independen.
  3. Tidak terdapat multikolinearitas tinggi antar prediktor.
  4. Hubungan antara prediktor kontinu dan logit bersifat linear.
  5. Ukuran sampel cukup besar.
  6. Tidak terdapat observasi pencilan yang sangat berpengaruh terhadap model.

2.3 Data dan Variabel

2.3.1 Variabel Respon

Variabel respon yang digunakan pada penelitian ini adalah:

\[Y=\text{Outcome}\]

Variabel Outcome menunjukkan status diabetes seseorang, dengan kategori:

\[Y= \begin{cases} 1, & \text{menderita diabetes} \\ 0, & \text{tidak menderita diabetes} \end{cases}\]

Karena variabel respon hanya terdiri atas dua kategori, maka metode yang sesuai digunakan adalah regresi logistik biner.

2.3.2 Variabel Prediktor

Variabel prediktor yang digunakan dalam penelitian ini adalah:

Variabel Keterangan
Pregnancies Jumlah kehamilan
Glucose Konsentrasi glukosa plasma
BloodPressure Tekanan darah diastolik
SkinThickness Ketebalan lipatan kulit triseps
Insulin Kadar insulin serum
BMI Body Mass Index
DiabetesPedigreeFunction Riwayat diabetes dalam keluarga
Age Umur responden

Variabel-variabel tersebut dipilih karena secara medis diketahui berkaitan dengan risiko terjadinya diabetes mellitus.

2.3.3 Model Penelitian

Model regresi logistik biner yang digunakan dalam penelitian ini adalah:

\[\text{Outcome} \sim \text{Pregnancies} + \text{Glucose} + \text{BloodPressure} + \text{SkinThickness} + \text{Insulin} + \text{BMI} + \text{DiabetesPedigreeFunction} + \text{Age}\]

atau secara matematis dapat dituliskan sebagai:

\[\log \left( \frac{\pi(x)} {1-\pi(x)} \right) = \beta_0 + \beta_1(\text{Pregnancies}) + \beta_2(\text{Glucose}) + \beta_3(\text{BloodPressure}) + \beta_4(\text{SkinThickness}) + \beta_5(\text{Insulin}) + \beta_6(\text{BMI}) + \beta_7(\text{DiabetesPedigreeFunction}) + \beta_8(\text{Age})\]

Model tersebut digunakan untuk mengidentifikasi faktor-faktor yang memengaruhi probabilitas seseorang menderita diabetes berdasarkan karakteristik fisiologis dan riwayat kesehatan yang dimiliki.

2.4 Import Data

diabetes <- read.csv(
  "C:/Users/user/Downloads/Data LogBiner_Diabetes.csv"
)
glimpse(diabetes)
## Rows: 768
## Columns: 9
## $ Pregnancies              <int> 6, 1, 8, 1, 0, 5, 3, 10, 2, 8, 4, 10, 10, 1, …
## $ Glucose                  <int> 148, 85, 183, 89, 137, 116, 78, 115, 197, 125…
## $ BloodPressure            <int> 72, 66, 64, 66, 40, 74, 50, 0, 70, 96, 92, 74…
## $ SkinThickness            <int> 35, 29, 0, 23, 35, 0, 32, 0, 45, 0, 0, 0, 0, …
## $ Insulin                  <int> 0, 0, 0, 94, 168, 0, 88, 0, 543, 0, 0, 0, 0, …
## $ BMI                      <dbl> 33.6, 26.6, 23.3, 28.1, 43.1, 25.6, 31.0, 35.…
## $ DiabetesPedigreeFunction <dbl> 0.627, 0.351, 0.672, 0.167, 2.288, 0.201, 0.2…
## $ Age                      <int> 50, 31, 32, 21, 33, 30, 26, 29, 53, 54, 30, 3…
## $ Outcome                  <int> 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, …
summary(diabetes)
##   Pregnancies        Glucose      BloodPressure    SkinThickness  
##  Min.   : 0.000   Min.   :  0.0   Min.   :  0.00   Min.   : 0.00  
##  1st Qu.: 1.000   1st Qu.: 99.0   1st Qu.: 62.00   1st Qu.: 0.00  
##  Median : 3.000   Median :117.0   Median : 72.00   Median :23.00  
##  Mean   : 3.845   Mean   :120.9   Mean   : 69.11   Mean   :20.54  
##  3rd Qu.: 6.000   3rd Qu.:140.2   3rd Qu.: 80.00   3rd Qu.:32.00  
##  Max.   :17.000   Max.   :199.0   Max.   :122.00   Max.   :99.00  
##     Insulin           BMI        DiabetesPedigreeFunction      Age       
##  Min.   :  0.0   Min.   : 0.00   Min.   :0.0780           Min.   :21.00  
##  1st Qu.:  0.0   1st Qu.:27.30   1st Qu.:0.2437           1st Qu.:24.00  
##  Median : 30.5   Median :32.00   Median :0.3725           Median :29.00  
##  Mean   : 79.8   Mean   :31.99   Mean   :0.4719           Mean   :33.24  
##  3rd Qu.:127.2   3rd Qu.:36.60   3rd Qu.:0.6262           3rd Qu.:41.00  
##  Max.   :846.0   Max.   :67.10   Max.   :2.4200           Max.   :81.00  
##     Outcome     
##  Min.   :0.000  
##  1st Qu.:0.000  
##  Median :0.000  
##  Mean   :0.349  
##  3rd Qu.:1.000  
##  Max.   :1.000

2.5 Eksplorasi Data

ggplot(diabetes,aes(factor(Outcome)))+
  geom_bar(fill="steelblue")+
  labs(title="Distribusi Outcome")

2.6 Estimasi Model

model_bin <- glm(
Outcome ~ Pregnancies + Glucose + BloodPressure +
SkinThickness + Insulin + BMI +
DiabetesPedigreeFunction + Age,
family=binomial(link="logit"),
data=diabetes)

summary(model_bin)
## 
## Call:
## glm(formula = Outcome ~ Pregnancies + Glucose + BloodPressure + 
##     SkinThickness + Insulin + BMI + DiabetesPedigreeFunction + 
##     Age, family = binomial(link = "logit"), data = diabetes)
## 
## Coefficients:
##                            Estimate Std. Error z value Pr(>|z|)    
## (Intercept)              -8.4046964  0.7166359 -11.728  < 2e-16 ***
## Pregnancies               0.1231823  0.0320776   3.840 0.000123 ***
## Glucose                   0.0351637  0.0037087   9.481  < 2e-16 ***
## BloodPressure            -0.0132955  0.0052336  -2.540 0.011072 *  
## SkinThickness             0.0006190  0.0068994   0.090 0.928515    
## Insulin                  -0.0011917  0.0009012  -1.322 0.186065    
## BMI                       0.0897010  0.0150876   5.945 2.76e-09 ***
## DiabetesPedigreeFunction  0.9451797  0.2991475   3.160 0.001580 ** 
## Age                       0.0148690  0.0093348   1.593 0.111192    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 993.48  on 767  degrees of freedom
## Residual deviance: 723.45  on 759  degrees of freedom
## AIC: 741.45
## 
## Number of Fisher Scoring iterations: 5

2.7 Odds Ratio

exp(coef(model_bin))
##              (Intercept)              Pregnancies                  Glucose 
##             0.0002238137             1.1310905981             1.0357892688 
##            BloodPressure            SkinThickness                  Insulin 
##             0.9867924485             1.0006191560             0.9988090108 
##                      BMI DiabetesPedigreeFunction                      Age 
##             1.0938471417             2.5732758592             1.0149800983

2.8 Evaluasi Model

hoslem.test(diabetes$Outcome,fitted(model_bin))
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  diabetes$Outcome, fitted(model_bin)
## X-squared = 9.5399, df = 8, p-value = 0.2988
pR2(model_bin)
## fitting null model for pseudo-r2
##          llh      llhNull           G2     McFadden         r2ML         r2CU 
## -361.7226889 -496.7419551  270.0385324    0.2718097    0.2964474    0.4084884
pred <- ifelse(predict(model_bin,type="response")>0.5,1,0)
confusionMatrix(factor(pred),factor(diabetes$Outcome))
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 445 112
##          1  55 156
##                                           
##                Accuracy : 0.7826          
##                  95% CI : (0.7517, 0.8112)
##     No Information Rate : 0.651           
##     P-Value [Acc > NIR] : 1.373e-15       
##                                           
##                   Kappa : 0.4966          
##                                           
##  Mcnemar's Test P-Value : 1.468e-05       
##                                           
##             Sensitivity : 0.8900          
##             Specificity : 0.5821          
##          Pos Pred Value : 0.7989          
##          Neg Pred Value : 0.7393          
##              Prevalence : 0.6510          
##          Detection Rate : 0.5794          
##    Detection Prevalence : 0.7253          
##       Balanced Accuracy : 0.7360          
##                                           
##        'Positive' Class : 0               
## 

2.9 Interpretasi

2.9.1 Model Regresi Logistik Biner

Berdasarkan hasil estimasi regresi logistik biner diperoleh model sebagai berikut:

\[\ln\left(\frac{\pi(x)}{1-\pi(x)}\right) = -8.4047 +0.1232(\text{Pregnancies}) +0.0352(\text{Glucose}) -0.0133(\text{BloodPressure}) +0.0006(\text{SkinThickness}) -0.0012(\text{Insulin}) +0.0897(\text{BMI}) +0.9452(\text{DiabetesPedigreeFunction}) +0.0149(\text{Age})\]

dengan:

\[\pi(x)=P(Y=1)\]

menyatakan probabilitas seseorang mengalami diabetes.

Model menunjukkan hubungan antara faktor-faktor risiko kesehatan dengan peluang terjadinya diabetes mellitus.

2.9.2 Evaluasi Kecocokan Model

2.9.2.1 Uji Hosmer-Lemeshow

Berdasarkan hasil pengujian diperoleh:

\[\chi^2 = 9.5399\]

dengan

\[p\text{-value}=0.2988\]

Karena nilai p-value lebih besar dari 0,05 maka gagal menolak hipotesis nol.

Hal ini menunjukkan bahwa model yang dibentuk telah sesuai dengan data sehingga tidak terdapat perbedaan yang signifikan antara nilai observasi dan nilai prediksi model.

2.9.2.2 Pseudo R-Square

Berdasarkan hasil perhitungan diperoleh:

Ukuran Nilai
McFadden R² 0.2718
Cox & Snell R² 0.2964
Nagelkerke R² 0.4085

Nilai Nagelkerke R² sebesar 0,4085 menunjukkan bahwa sekitar 40,85% variasi status diabetes dapat dijelaskan oleh variabel-variabel prediktor dalam model.

2.9.2.3 Akurasi Klasifikasi

Berdasarkan confusion matrix diperoleh:

Ukuran Nilai
Accuracy 78,26%
Sensitivity 89,00%
Specificity 58,21%
Kappa 0,4966

Nilai akurasi sebesar 78,26% menunjukkan bahwa model memiliki kemampuan klasifikasi yang cukup baik dalam membedakan individu yang mengalami diabetes dan yang tidak mengalami diabetes.

2.9.3 Evaluasi Signifikansi Parameter

Berdasarkan hasil uji Wald pada taraf signifikansi 5%, diperoleh hasil sebagai berikut:

Variabel p-value Keputusan
Pregnancies 0.000123 Signifikan
Glucose <0.001 Signifikan
BloodPressure 0.0111 Signifikan
SkinThickness 0.9285 Tidak Signifikan
Insulin 0.1861 Tidak Signifikan
BMI <0.001 Signifikan
DiabetesPedigreeFunction 0.0016 Signifikan
Age 0.1112 Tidak Signifikan

Variabel yang berpengaruh signifikan terhadap status diabetes adalah:

  1. Pregnancies
  2. Glucose
  3. BloodPressure
  4. BMI
  5. DiabetesPedigreeFunction

Sedangkan variabel SkinThickness, Insulin, dan Age tidak berpengaruh signifikan pada taraf signifikansi 5%.

2.9.4 Interpretasi Odds Ratio

Interpretasi parameter dilakukan menggunakan Odds Ratio:

\[OR=e^{\beta_j}\]

2.9.4.1 Pregnancies

Koefisien:

\[\beta=0.1232\]

Odds Ratio:

\[OR=1.131\]

Interpretasi:

Setiap peningkatan satu kali kehamilan meningkatkan peluang seseorang mengalami diabetes sebesar:

\[(1.131-1)\times100\%=13.1\%\]

dengan asumsi variabel lain tetap.


2.9.4.2 Glucose

Koefisien:

\[\beta=0.0352\]

Odds Ratio:

\[OR=1.036\]

Interpretasi:

Setiap peningkatan satu unit kadar glukosa darah meningkatkan peluang seseorang mengalami diabetes sebesar 3,6%.

Variabel ini merupakan salah satu faktor risiko utama diabetes mellitus.


2.9.4.3 Blood Pressure

Koefisien:

\[\beta=-0.0133\]

Odds Ratio:

\[OR=0.987\]

Interpretasi:

Setiap peningkatan satu unit tekanan darah menyebabkan peluang seseorang mengalami diabetes menurun sebesar sekitar 1,3%.

Meskipun signifikan secara statistik, pengaruh variabel ini relatif kecil dibandingkan variabel lainnya.


2.9.4.4 BMI

Koefisien:

\[\beta=0.0897\]

Odds Ratio:

\[OR=1.094\]

Interpretasi:

Setiap peningkatan satu unit BMI meningkatkan peluang seseorang mengalami diabetes sebesar:

\[(1.094-1)\times100\%=9.4\%\]

Hasil ini menunjukkan bahwa individu dengan indeks massa tubuh yang lebih tinggi memiliki risiko diabetes yang lebih besar.


2.9.4.5 Diabetes Pedigree Function

Koefisien:

\[\beta=0.9452\]

Odds Ratio:

\[OR=2.573\]

Interpretasi:

Setiap peningkatan satu unit Diabetes Pedigree Function meningkatkan peluang seseorang mengalami diabetes sebesar:

\[2.573\]

kali dibandingkan sebelumnya.

Variabel ini memiliki nilai Odds Ratio terbesar di antara seluruh variabel signifikan sehingga dapat dianggap sebagai faktor risiko paling dominan dalam model.

Hasil ini menunjukkan bahwa faktor keturunan dan riwayat keluarga memiliki kontribusi yang sangat kuat terhadap kejadian diabetes.

2.9.5 Variabel Tidak Signifikan

2.9.5.1 Skin Thickness

Variabel SkinThickness memiliki p-value sebesar 0,9285 sehingga tidak berpengaruh signifikan terhadap status diabetes.

2.9.5.2 Insulin

Variabel Insulin memiliki p-value sebesar 0,1861 sehingga belum terbukti berpengaruh signifikan terhadap status diabetes pada model ini.

2.9.5.3 Age

Variabel Age memiliki p-value sebesar 0,1112 sehingga tidak berpengaruh signifikan pada taraf signifikansi 5%.

Walaupun usia sering dikaitkan dengan peningkatan risiko diabetes, pada data ini pengaruhnya tidak cukup kuat setelah mempertimbangkan variabel lain dalam model.

2.9.6 Faktor Dominan

Berdasarkan nilai Odds Ratio, faktor-faktor yang paling meningkatkan risiko diabetes adalah:

Variabel Odds Ratio
DiabetesPedigreeFunction 2.573
Pregnancies 1.131
BMI 1.094
Glucose 1.036

Di antara seluruh variabel, DiabetesPedigreeFunction merupakan faktor yang paling dominan dalam meningkatkan risiko diabetes.

2.10 Kesimpulan

Berdasarkan hasil analisis regresi logistik biner pada data diabetes dapat disimpulkan bahwa model yang dibentuk telah memenuhi kriteria kecocokan model berdasarkan uji Hosmer-Lemeshow dengan nilai p-value sebesar 0,2988. Selain itu, model memiliki kemampuan klasifikasi yang cukup baik dengan tingkat akurasi sebesar 78,26%.

Variabel yang berpengaruh signifikan terhadap status diabetes adalah:

  1. Pregnancies
  2. Glucose
  3. BloodPressure
  4. BMI
  5. DiabetesPedigreeFunction

Sedangkan variabel yang tidak berpengaruh signifikan adalah:

  1. SkinThickness
  2. Insulin
  3. Age

Berdasarkan nilai Odds Ratio, variabel DiabetesPedigreeFunction merupakan faktor yang paling dominan dengan nilai OR sebesar 2,573. Hasil ini menunjukkan bahwa faktor keturunan dan riwayat keluarga memiliki kontribusi yang sangat besar terhadap kemungkinan seseorang mengalami diabetes mellitus.

Selain itu, variabel Glucose dan BMI juga terbukti meningkatkan risiko diabetes secara signifikan. Individu dengan kadar glukosa darah yang lebih tinggi serta indeks massa tubuh yang lebih besar memiliki peluang lebih tinggi untuk mengalami diabetes.

Secara keseluruhan, hasil penelitian menunjukkan bahwa faktor genetik, kondisi metabolik, dan karakteristik reproduksi merupakan determinan utama kejadian diabetes pada data yang dianalisis. Oleh karena itu, upaya pencegahan diabetes perlu difokuskan pada pengendalian kadar glukosa darah, menjaga berat badan ideal, serta peningkatan kesadaran individu yang memiliki riwayat keluarga penderita diabetes.

3 REGRESI LOGISTIK MULTINOMIAL

3.1 Teori

Regresi logistik multinomial merupakan pengembangan dari regresi logistik biner yang digunakan ketika variabel respon memiliki lebih dari dua kategori dan kategori tersebut bersifat nominal atau tidak memiliki urutan alami (Agresti, 2018). Model ini digunakan untuk menjelaskan hubungan antara sejumlah variabel prediktor dengan probabilitas pemilihan suatu kategori respon.

Regresi logistik multinomial termasuk ke dalam keluarga Generalized Linear Model (GLM) dengan fungsi link berupa generalized logit. Model ini banyak digunakan dalam penelitian sosial, ekonomi, pemasaran, transportasi, kesehatan, dan ilmu perilaku untuk menganalisis keputusan individu dalam memilih salah satu alternatif yang tersedia (Hosmer et al., 2013).

Misalkan variabel respon memiliki \(K\) kategori, yaitu:

\[Y \in \{1,2,\ldots,K\}\]

dengan probabilitas:

\[P(Y=j)=\pi_j\]

untuk:

\[j=1,2,\ldots,K\]

dan memenuhi:

\[\sum_{j=1}^{K}\pi_j=1\]

serta

\[0 \le \pi_j \le 1\]

Karena variabel respon memiliki lebih dari dua kategori, maka distribusi yang digunakan adalah distribusi multinomial dengan fungsi probabilitas:

\[f(y)= \frac{n!} {y_1!y_2!\cdots y_K!} \pi_1^{y_1} \pi_2^{y_2} \cdots \pi_K^{y_K}\]

dengan:

Simbol Keterangan
\(y_j\) Frekuensi kategori ke-\(j\)
\(\pi_j\) Probabilitas kategori ke-\(j\)
\(K\) Jumlah kategori respon
\(n\) Jumlah pengamatan

Model Generalized Logit

Pada regresi logistik multinomial, salah satu kategori dipilih sebagai kategori referensi (baseline category). Misalkan kategori ke-\(K\) digunakan sebagai referensi.

Hubungan antara probabilitas kategori ke-\(j\) terhadap kategori referensi dinyatakan sebagai:

\[\log\left( \frac{\pi_j} {\pi_K} \right) = \beta_{j0} + \beta_{j1}X_1 + \beta_{j2}X_2 + \cdots + \beta_{jp}X_p\]

untuk:

\[j=1,2,\ldots,K-1\]

Persamaan tersebut disebut sebagai model generalized logit.

Jika terdapat empat kategori moda transportasi, maka akan terbentuk tiga persamaan logit yang membandingkan masing-masing kategori terhadap kategori referensi.

Probabilitas Pemilihan Kategori

Dari model generalized logit diperoleh probabilitas pemilihan kategori ke-\(j\) sebagai:

\[P(Y=j) = \frac{ \exp ( \beta_{j0} + \beta_{j1}X_1 + \cdots + \beta_{jp}X_p ) } { 1+ \sum_{h=1}^{K-1} \exp ( \beta_{h0} + \beta_{h1}X_1 + \cdots + \beta_{hp}X_p ) }\]

untuk:

\[j=1,2,\ldots,K-1\]

sedangkan probabilitas kategori referensi adalah:

\[P(Y=K) = \frac{1} { 1+ \sum_{h=1}^{K-1} \exp ( \beta_{h0} + \beta_{h1}X_1 + \cdots + \beta_{hp}X_p ) }\]

Dengan demikian seluruh probabilitas kategori akan berjumlah satu.

Estimasi Parameter

Parameter regresi logistik multinomial umumnya diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).

Fungsi likelihood dituliskan sebagai:

\[L(\beta) = \prod_{i=1}^{n} \prod_{j=1}^{K} \pi_{ij}^{y_{ij}}\]

Kemudian dilakukan optimasi terhadap log-likelihood:

\[\ell(\beta) = \sum_{i=1}^{n} \sum_{j=1}^{K} y_{ij} \log(\pi_{ij})\]

Estimasi parameter diperoleh melalui prosedur iteratif seperti algoritma Newton-Raphson atau Fisher Scoring (McCullagh & Nelder, 1989).

Pengujian Parameter

Signifikansi parameter dapat diuji menggunakan Uji Wald:

\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]

Hipotesis yang diuji adalah:

\[H_0:\beta_j=0\]

\[H_1:\beta_j\neq0\]

Jika nilai p-value lebih kecil dari taraf signifikansi yang digunakan (misalnya 0,05), maka variabel tersebut berpengaruh signifikan terhadap pemilihan kategori respon.

Relative Risk Ratio (RRR)

Interpretasi koefisien pada regresi logistik multinomial umumnya dilakukan menggunakan Relative Risk Ratio (RRR), yaitu:

\[RRR=e^{\beta}\]

Interpretasi RRR adalah:

  • \(RRR>1\) menunjukkan peningkatan peluang relatif memilih kategori tertentu dibanding kategori referensi.
  • \(RRR<1\) menunjukkan penurunan peluang relatif memilih kategori tertentu dibanding kategori referensi.
  • \(RRR=1\) menunjukkan tidak terdapat perubahan peluang relatif.

Sebagai contoh:

\[RRR=1.50\]

berarti kenaikan satu satuan variabel prediktor meningkatkan peluang memilih kategori tertentu sebesar 50% dibanding kategori referensi.

Sebaliknya:

\[RRR=0.70\]

berarti kenaikan satu satuan variabel prediktor menurunkan peluang memilih kategori tersebut sebesar 30%.

3.2 Asumsi

Beberapa asumsi penting dalam regresi logistik multinomial adalah:

  1. Variabel respon bersifat nominal dengan lebih dari dua kategori.
  2. Observasi bersifat independen.
  3. Tidak terjadi multikolinearitas yang tinggi antar variabel prediktor.
  4. Ukuran sampel cukup besar.
  5. Memenuhi asumsi Independence of Irrelevant Alternatives (IIA), yaitu peluang memilih suatu kategori tidak dipengaruhi oleh keberadaan kategori lain yang tidak relevan.

Asumsi IIA merupakan karakteristik penting yang membedakan regresi logistik multinomial dengan model klasifikasi lainnya (Long & Freese, 2014).

3.3 Data dan Variabel

3.3.1 Variabel Respon

Variabel respon yang digunakan adalah:

\[Y = \text{choice}\]

Variabel ini menunjukkan pilihan moda transportasi yang dipilih responden.

Karena terdiri atas empat kategori moda transportasi dan tidak memiliki urutan alami, maka metode yang sesuai digunakan adalah regresi logistik multinomial.

3.3.2 Variabel Prediktor

Variabel prediktor yang digunakan dalam penelitian ini adalah:

Variabel Keterangan
ttme Travel Time
invc Travel Cost
invt In-Vehicle Time
gc Generalized Cost
hinc Household Income
psize Household Size

Model regresi logistik multinomial yang dibentuk adalah:

\[\text{choice} \sim ttme + invc + invt + gc + hinc + psize\]

Model tersebut digunakan untuk menjelaskan pengaruh karakteristik perjalanan dan karakteristik sosial ekonomi rumah tangga terhadap keputusan pemilihan moda transportasi.

3.4 Import Data

modechoice <- read.csv(
  "C:/Users/user/Downloads/Data LogMultinom_ModeChoice.csv"
)
modechoice$choice <- as.factor(modechoice$choice)

3.5 Eksplorasi Data

ggplot(modechoice,aes(choice))+
geom_bar(fill="darkgreen")

3.6 Estimasi Model

model_multi <- multinom(
choice ~ ttme + invc + invt + gc + hinc + psize,
data=modechoice)
## # weights:  32 (21 variable)
## initial  value 291.121816 
## iter  10 value 121.451672
## iter  20 value 90.861112
## iter  30 value 53.689957
## iter  40 value 51.776959
## final  value 51.746503 
## converged
summary(model_multi)
## Call:
## multinom(formula = choice ~ ttme + invc + invt + gc + hinc + 
##     psize, data = modechoice)
## 
## Coefficients:
##   (Intercept)       ttme      invc      invt       gc       hinc      psize
## 2    331.9804  -2.751304 -23.24546 0.4002512 15.41325 -1.5942924 -143.02256
## 3    330.8940  -2.764534 -23.25743 0.4042948 15.39929 -1.5642242 -143.36490
## 4    258.1807 -40.972923 -24.26198 0.4457966 15.77604  0.7497141  -79.37624
## 
## Std. Errors:
##    (Intercept)         ttme       invc       invt         gc        hinc
## 2 0.5027823650 8.057236e-03 0.01797987 0.03022718 0.01521874 0.007215992
## 3 0.5027828350 8.057080e-03 0.01799679 0.03022231 0.01520774 0.007210673
## 4 0.0002647669 8.430101e-06 0.00470924 0.06034104 0.01115255 0.001091449
##          psize
## 2 0.2605886613
## 3 0.2605891513
## 4 0.0002647669
## 
## Residual Deviance: 103.493 
## AIC: 145.493

3.7 Uji Signifikansi

z <- summary(model_multi)$coefficients /
summary(model_multi)$standard.errors

p <- (1-pnorm(abs(z)))*2
p
##   (Intercept) ttme invc        invt gc hinc psize
## 2           0    0    0 0.00000e+00  0    0     0
## 3           0    0    0 0.00000e+00  0    0     0
## 4           0    0    0 1.49214e-13  0    0     0

3.8 Relative Risk Ratio

exp(coef(model_multi))
##     (Intercept)         ttme         invc     invt      gc      hinc
## 2 1.504091e+144 6.384456e-02 8.028348e-11 1.492200 4941840 0.2030522
## 3 5.074898e+143 6.300548e-02 7.932787e-11 1.498246 4873351 0.2092503
## 4 1.338046e+112 1.605778e-18 2.905078e-11 1.561734 7103107 2.1163949
##          psize
## 2 7.692914e-63
## 3 5.462778e-63
## 4 3.367743e-35

3.9 Evaluasi Model

pred_multi <- predict(model_multi)
confusionMatrix(pred_multi,modechoice$choice)
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction  1  2  3  4
##          1 58  0  0  0
##          2  0 55 20  0
##          3  0  8 10  0
##          4  0  0  0 59
## 
## Overall Statistics
##                                           
##                Accuracy : 0.8667          
##                  95% CI : (0.8131, 0.9095)
##     No Information Rate : 0.3             
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.8162          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 1 Class: 2 Class: 3 Class: 4
## Sensitivity            1.0000   0.8730  0.33333    1.000
## Specificity            1.0000   0.8639  0.95556    1.000
## Pos Pred Value         1.0000   0.7333  0.55556    1.000
## Neg Pred Value         1.0000   0.9407  0.89583    1.000
## Prevalence             0.2762   0.3000  0.14286    0.281
## Detection Rate         0.2762   0.2619  0.04762    0.281
## Detection Prevalence   0.2762   0.3571  0.08571    0.281
## Balanced Accuracy      1.0000   0.8685  0.64444    1.000

3.10 Interpretasi

3.10.1 Model Regresi Logistik Multinomial

Pada analisis ini variabel respon adalah choice yang terdiri atas empat kategori moda transportasi. Regresi logistik multinomial digunakan karena kategori respon bersifat nominal dan tidak memiliki urutan tertentu.

Model multinomial menggunakan salah satu kategori sebagai kategori referensi (baseline category). Koefisien yang dihasilkan menunjukkan perubahan log-odds suatu kategori moda terhadap kategori referensi akibat perubahan variabel prediktor.

Secara umum model multinomial dapat dituliskan sebagai:

\[\ln\left( \frac{P(Y=j)} {P(Y=ref)} \right) = \beta_{0j} +\beta_{1j}X_1 +\beta_{2j}X_2 +\cdots +\beta_{pj}X_p\]

dengan:

  • \(P(Y=j)\) adalah probabilitas memilih kategori ke-\(j\)
  • \(P(Y=ref)\) adalah probabilitas kategori referensi
  • \(\beta_{ij}\) adalah parameter model

Berdasarkan hasil estimasi diperoleh bahwa seluruh variabel prediktor memiliki nilai p-value kurang dari 0,05 sehingga berpengaruh signifikan terhadap pemilihan moda transportasi.

3.10.2 Evaluasi Kinerja Model

Berdasarkan confusion matrix diperoleh:

Ukuran Nilai
Accuracy 86,67%
Kappa 0,8162

Nilai akurasi sebesar 86,67% menunjukkan bahwa model memiliki kemampuan klasifikasi yang sangat baik dalam memprediksi pilihan moda transportasi.

Nilai Kappa sebesar 0,8162 menunjukkan tingkat kesesuaian yang sangat kuat antara hasil prediksi model dan data aktual.

Selain itu diperoleh:

\[AIC = 145.493\]

dan

\[Residual\ Deviance = 103.493\]

Nilai residual deviance yang relatif kecil menunjukkan bahwa model mampu menjelaskan variasi data dengan baik.

3.10.3 Evaluasi Signifikansi Parameter

Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel prediktor memiliki nilai p-value kurang dari 0,05.

Variabel yang berpengaruh signifikan terhadap pemilihan moda transportasi adalah:

  1. Travel Time (ttme)
  2. Travel Cost (invc)
  3. In-Vehicle Time (invt)
  4. Generalized Cost (gc)
  5. Household Income (hinc)
  6. Household Size (psize)

Dengan demikian seluruh variabel dalam model memberikan kontribusi dalam menjelaskan keputusan pemilihan moda transportasi.

3.10.4 Interpretasi Relative Risk Ratio (RRR)

Interpretasi dilakukan menggunakan Relative Risk Ratio (RRR):

\[RRR=e^{\beta_j}\]

Nilai RRR menunjukkan perubahan peluang relatif suatu kategori moda dibandingkan kategori referensi akibat kenaikan satu satuan variabel prediktor.

3.10.5 Travel Time (ttme)

Nilai RRR untuk variabel ttme adalah:

Kategori RRR
2 0.0638
3 0.0630
4 0.0000

Seluruh nilai RRR lebih kecil dari satu.

Interpretasi:

Peningkatan waktu perjalanan menyebabkan peluang pemilihan moda kategori 2, 3, maupun 4 relatif menurun dibanding kategori referensi.

Hal ini menunjukkan bahwa responden cenderung menghindari moda transportasi yang membutuhkan waktu perjalanan lebih lama.

Variabel waktu perjalanan merupakan salah satu faktor yang sangat menentukan dalam keputusan pemilihan moda.


3.10.6 Travel Cost (invc)

Nilai RRR:

Kategori RRR
2 \(8.03\times10^{-11}\)
3 \(7.93\times10^{-11}\)
4 \(2.91\times10^{-11}\)

Interpretasi:

Seluruh nilai RRR sangat kecil dan jauh di bawah satu.

Peningkatan biaya perjalanan menyebabkan probabilitas pemilihan moda tersebut menurun secara drastis dibanding kategori referensi.

Hasil ini menunjukkan bahwa biaya perjalanan merupakan faktor ekonomi yang sangat penting dalam pengambilan keputusan transportasi.


3.10.7 In-Vehicle Time (invt)

Nilai RRR:

Kategori RRR
2 1.492
3 1.498
4 1.562

Interpretasi:

Peningkatan waktu selama berada di dalam kendaraan meningkatkan peluang pemilihan moda tertentu dibanding kategori referensi.

Hal ini menunjukkan bahwa karakteristik perjalanan tidak hanya dipengaruhi oleh total waktu perjalanan tetapi juga oleh pengalaman selama perjalanan berlangsung.


3.10.8 Generalized Cost (gc)

Nilai RRR:

Kategori RRR
2 4.94 juta
3 4.87 juta
4 7.10 juta

Interpretasi:

Variabel gc memiliki nilai Relative Risk Ratio terbesar dalam model.

Perubahan generalized cost memberikan perubahan peluang yang sangat besar terhadap keputusan pemilihan moda.

Variabel ini merupakan salah satu faktor paling dominan dalam model karena mencerminkan kombinasi biaya dan utilitas perjalanan yang dirasakan pengguna.


3.10.9 Household Income (hinc)

Nilai RRR:

Kategori RRR
2 0.203
3 0.209
4 2.116

Interpretasi:

Untuk kategori 2 dan 3 diperoleh:

\[RRR<1\]

yang menunjukkan bahwa peningkatan pendapatan rumah tangga menurunkan peluang memilih kategori tersebut dibanding kategori referensi.

Sebaliknya untuk kategori 4 diperoleh:

\[RRR=2.116\]

yang menunjukkan bahwa peningkatan pendapatan rumah tangga meningkatkan peluang memilih moda kategori 4 sebesar 2,116 kali dibanding kategori referensi.

Temuan ini menunjukkan bahwa kelompok berpendapatan tinggi cenderung memilih moda transportasi yang lebih nyaman atau memiliki kualitas layanan yang lebih baik.


3.10.10 Household Size (psize)

Nilai RRR:

Kategori RRR
2 \(7.69\times10^{-63}\)
3 \(5.46\times10^{-63}\)
4 \(3.37\times10^{-35}\)

Interpretasi:

Seluruh nilai RRR jauh lebih kecil dari satu.

Semakin besar jumlah anggota rumah tangga maka kecenderungan memilih kategori moda tersebut semakin menurun dibanding kategori referensi.

Hasil ini mengindikasikan bahwa ukuran rumah tangga turut memengaruhi pola pemilihan moda transportasi.

3.10.11 Faktor Dominan

Berdasarkan besarnya Relative Risk Ratio dan konsistensi signifikansi parameter, faktor-faktor yang paling dominan memengaruhi pemilihan moda transportasi adalah:

Variabel Karakteristik Pengaruh
gc Pengaruh paling besar
invc Pengaruh ekonomi yang sangat kuat
ttme Faktor waktu perjalanan utama
hinc Membedakan preferensi berdasarkan pendapatan

Secara umum, biaya perjalanan dan waktu perjalanan merupakan determinan utama dalam keputusan pemilihan moda transportasi.

3.11 Kesimpulan

Berdasarkan hasil analisis regresi logistik multinomial diperoleh model yang memiliki tingkat akurasi sebesar 86,67%, sehingga dapat dikatakan memiliki kemampuan prediksi yang sangat baik.

Nilai Kappa sebesar 0,8162 menunjukkan bahwa hasil klasifikasi model memiliki tingkat kesesuaian yang sangat kuat dengan data aktual.

Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel prediktor, yaitu:

  1. Travel Time (ttme)
  2. Travel Cost (invc)
  3. In-Vehicle Time (invt)
  4. Generalized Cost (gc)
  5. Household Income (hinc)
  6. Household Size (psize)

berpengaruh signifikan terhadap keputusan pemilihan moda transportasi.

Variabel generalized cost (gc) merupakan faktor yang memiliki pengaruh paling dominan dalam model, diikuti oleh travel cost (invc) dan travel time (ttme). Temuan ini menunjukkan bahwa aspek biaya dan efisiensi perjalanan merupakan pertimbangan utama dalam pemilihan moda transportasi.

Selain itu, karakteristik sosial ekonomi rumah tangga yang direpresentasikan oleh household income dan household size juga terbukti memengaruhi preferensi moda yang dipilih.

Secara keseluruhan, hasil penelitian menunjukkan bahwa keputusan pemilihan moda transportasi merupakan hasil interaksi antara faktor ekonomi, waktu perjalanan, dan karakteristik rumah tangga. Oleh karena itu, kebijakan transportasi yang bertujuan meningkatkan penggunaan moda tertentu perlu mempertimbangkan ketiga aspek tersebut secara bersamaan.

4 REGRESI LOGISTIK ORDINAL

4.1 Teori

Regresi logistik ordinal digunakan ketika variabel respon berbentuk kategorik dan memiliki urutan alami (ordered categories), tetapi jarak antar kategori tidak harus sama (Agresti, 2018). Model ini merupakan pengembangan dari regresi logistik biner untuk menangani variabel respon yang terdiri atas lebih dari dua kategori yang berjenjang.

Contoh variabel ordinal antara lain:

  • Tingkat kepuasan (rendah, sedang, tinggi)
  • Tingkat pendidikan
  • Tingkat kemiskinan
  • Tingkat kualitas produk
  • Kualitas wine

Karena kategori respon memiliki urutan, informasi urutan tersebut perlu dipertahankan dalam proses pemodelan sehingga penggunaan regresi logistik multinomial menjadi kurang efisien. Oleh karena itu digunakan regresi logistik ordinal yang memanfaatkan informasi urutan kategori respon (Hosmer et al., 2013).

Misalkan variabel respon memiliki \(J\) kategori berurutan:

\[Y \in \{1,2,3,\ldots,J\}\]

dengan probabilitas:

\[P(Y=j)=\pi_j\]

untuk:

\[j=1,2,\ldots,J\]

dan memenuhi:

\[\sum_{j=1}^{J}\pi_j=1\]

Probabilitas Kumulatif

Pada regresi logistik ordinal, yang dimodelkan bukan probabilitas kategori tunggal, melainkan probabilitas kumulatif.

Probabilitas kumulatif didefinisikan sebagai:

\[P(Y \le j) = \pi_1+\pi_2+\cdots+\pi_j\]

untuk:

\[j=1,2,\ldots,J-1\]

sedangkan probabilitas komplemennya adalah:

\[P(Y>j) = 1-P(Y\le j)\]

Model Cumulative Logit

Model yang paling umum digunakan dalam regresi logistik ordinal adalah Cumulative Logit Model atau Proportional Odds Model (McCullagh, 1980).

Model cumulative logit dinyatakan sebagai:

\[\log \left( \frac{P(Y\le j)} {P(Y>j)} \right) = \alpha_j + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]

untuk:

\[j=1,2,\ldots,J-1\]

dengan:

Simbol Keterangan
\(\alpha_j\) Cutpoint atau threshold kategori ke-\(j\)
\(\beta_k\) Koefisien regresi
\(X_k\) Variabel prediktor
\(P(Y\le j)\) Probabilitas kumulatif hingga kategori ke-\(j\)

Model ini menghasilkan sejumlah persamaan logit kumulatif sesuai banyaknya kategori respon.

Sebagai contoh, apabila terdapat enam kategori kualitas wine, maka akan terbentuk lima persamaan logit kumulatif.

Bentuk Probabilitas Kumulatif

Dari model cumulative logit diperoleh:

\[P(Y\le j) = \frac{ \exp ( \alpha_j + \beta_1X_1 +\cdots+ \beta_pX_p ) } { 1+ \exp ( \alpha_j + \beta_1X_1 +\cdots+ \beta_pX_p ) }\]

Probabilitas masing-masing kategori kemudian diperoleh dari selisih probabilitas kumulatif yang berurutan.

Proportional Odds Model

Regresi logistik ordinal sering disebut sebagai Proportional Odds Model karena koefisien regresi:

\[\beta_1,\beta_2,\ldots,\beta_p\]

diasumsikan sama untuk seluruh kategori kumulatif.

Dengan kata lain, pengaruh setiap variabel prediktor dianggap konstan pada seluruh batas kategori respon.

Keuntungan asumsi ini adalah:

  1. Model menjadi lebih sederhana.
  2. Jumlah parameter lebih sedikit.
  3. Interpretasi model lebih mudah.

Estimasi Parameter

Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).

Fungsi likelihood dituliskan sebagai:

\[L(\beta) = \prod_{i=1}^{n} \prod_{j=1}^{J} \pi_{ij}^{y_{ij}}\]

Kemudian dilakukan optimasi terhadap fungsi log-likelihood:

\[\ell(\beta) = \sum_{i=1}^{n} \sum_{j=1}^{J} y_{ij} \log(\pi_{ij})\]

Estimasi parameter diperoleh melalui prosedur iteratif seperti Newton-Raphson atau Fisher Scoring (McCullagh & Nelder, 1989).

Pengujian Parameter

Signifikansi parameter dapat diuji menggunakan statistik Wald:

\[Z = \frac{\hat{\beta}} {SE(\hat{\beta})}\]

Hipotesis yang diuji:

\[H_0:\beta_j=0\]

\[H_1:\beta_j\neq0\]

Jika:

\[p\text{-value}<\alpha\]

maka variabel tersebut berpengaruh signifikan terhadap kategori respon.

Odds Ratio

Interpretasi koefisien regresi logistik ordinal dilakukan menggunakan Odds Ratio (OR):

\[OR=e^{\beta}\]

Interpretasi:

  • \(OR>1\) menunjukkan peningkatan peluang berada pada kategori yang lebih tinggi.
  • \(OR<1\) menunjukkan penurunan peluang berada pada kategori yang lebih tinggi.
  • \(OR=1\) menunjukkan tidak ada pengaruh.

Sebagai contoh:

\[OR=2\]

berarti kenaikan satu satuan variabel prediktor meningkatkan peluang berada pada kategori kualitas yang lebih tinggi sebesar dua kali lipat.

Sebaliknya:

\[OR=0.50\]

berarti peluang berada pada kategori yang lebih tinggi menurun sebesar 50%.

4.2 Asumsi

Regresi logistik ordinal memiliki beberapa asumsi penting:

  1. Variabel respon bersifat ordinal.
  2. Observasi bersifat independen.
  3. Tidak terdapat multikolinearitas tinggi antar prediktor.
  4. Ukuran sampel cukup besar.
  5. Memenuhi asumsi proportional odds atau parallel lines.

Asumsi proportional odds menyatakan bahwa hubungan antara setiap pasangan kategori respon memiliki koefisien regresi yang sama.

Pengujian asumsi ini umumnya dilakukan menggunakan:

  • Brant Test
  • Likelihood Ratio Test
  • Score Test

Hipotesis yang diuji adalah:

\[H_0: \text{Asumsi proportional odds terpenuhi}\]

\[H_1: \text{Asumsi proportional odds tidak terpenuhi}\]

Apabila nilai p-value lebih besar dari 0,05 maka asumsi proportional odds dianggap terpenuhi.

4.3 Data dan Variabel

4.3.1 Variabel Respon

Variabel respon yang digunakan adalah:

\[Y=\text{quality}\]

Variabel quality menunjukkan tingkat kualitas wine yang bersifat ordinal.

Semakin tinggi nilai quality menunjukkan kualitas wine yang semakin baik.

4.3.2 Variabel Prediktor

Variabel prediktor yang digunakan adalah:

Variabel Keterangan
fixed acidity Keasaman tetap
volatile acidity Keasaman volatil
citric acid Asam sitrat
residual sugar Gula residu
chlorides Kandungan klorida
free sulfur dioxide Sulfur dioksida bebas
total sulfur dioxide Total sulfur dioksida
density Massa jenis
pH Tingkat keasaman
sulphates Kandungan sulfat
alcohol Kadar alkohol

Model regresi logistik ordinal yang digunakan adalah:

\[\text{quality} \sim \text{fixed acidity} + \text{volatile acidity} + \text{citric acid} + \text{residual sugar} + \text{chlorides} + \text{free sulfur dioxide} + \text{total sulfur dioxide} + \text{density} + pH + \text{sulphates} + \text{alcohol}\]

Model ini digunakan untuk mengidentifikasi faktor-faktor kimia yang memengaruhi kualitas wine dan menentukan variabel yang berkontribusi terhadap peningkatan kategori kualitas wine.

4.4 Import Data

wine <- read.csv(
  "C:/Users/user/Downloads/Data LogOrdinal_WineQuality.csv"
)
wine$quality <- ordered(wine$quality)

4.5 Eksplorasi Data

ggplot(wine,aes(quality))+
geom_bar(fill="purple")

4.6 Estimasi Model

model_ord <- polr(
quality ~ .,
data=wine,
Hess=TRUE)

summary(model_ord)
## Call:
## polr(formula = quality ~ ., data = wine, Hess = TRUE)
## 
## Coefficients:
##                          Value Std. Error t value
## fixed.acidity          0.10240   0.051209   2.000
## volatile.acidity      -3.41794   0.400103  -8.543
## citric.acid           -0.80494   0.462371  -1.741
## residual.sugar         0.07617   0.038210   1.993
## chlorides             -5.17121   1.354373  -3.818
## free.sulfur.dioxide    0.01392   0.006767   2.057
## total.sulfur.dioxide  -0.01119   0.002360  -4.744
## density              -48.92546   0.974488 -50.206
## pH                    -0.98472   0.496900  -1.982
## sulphates              2.86724   0.358016   8.009
## alcohol                0.85611   0.059355  14.424
## 
## Intercepts:
##     Value    Std. Error t value 
## 3|4 -48.8787   0.9979   -48.9797
## 4|5 -46.9597   0.9959   -47.1541
## 5|6 -43.2452   0.9988   -43.2968
## 6|7 -40.3898   1.0111   -39.9454
## 7|8 -37.3837   1.0409   -35.9138
## 
## Residual Deviance: 3074.928 
## AIC: 3106.928

4.7 Uji Signifikansi

ctable <- coef(summary(model_ord))
p <- pnorm(abs(ctable[,3]),lower.tail=FALSE)*2
cbind(ctable,p)
##                             Value  Std. Error    t value             p
## fixed.acidity          0.10239667 0.051208703   1.999595  4.554400e-02
## volatile.acidity      -3.41794232 0.400103057  -8.542655  1.311728e-17
## citric.acid           -0.80493954 0.462371339  -1.740894  8.170214e-02
## residual.sugar         0.07616957 0.038209940   1.993449  4.621229e-02
## chlorides             -5.17121245 1.354373478  -3.818158  1.344516e-04
## free.sulfur.dioxide    0.01392022 0.006767187   2.057016  3.968465e-02
## total.sulfur.dioxide  -0.01119452 0.002359517  -4.744413  2.091120e-06
## density              -48.92545746 0.974488188 -50.206311  0.000000e+00
## pH                    -0.98471618 0.496900166  -1.981718  4.751077e-02
## sulphates              2.86723651 0.358015972   8.008683  1.159431e-15
## alcohol                0.85611493 0.059354809  14.423683  3.672145e-47
## 3|4                  -48.87868294 0.997938359 -48.979661  0.000000e+00
## 4|5                  -46.95972297 0.995878057 -47.154089  0.000000e+00
## 5|6                  -43.24521409 0.998809085 -43.296777  0.000000e+00
## 6|7                  -40.38977375 1.011124776 -39.945390  0.000000e+00
## 7|8                  -37.38369207 1.040928296 -35.913801 1.860312e-282

4.8 Odds Ratio

exp(coef(model_ord))
##        fixed.acidity     volatile.acidity          citric.acid 
##         1.107823e+00         3.277982e-02         4.471150e-01 
##       residual.sugar            chlorides  free.sulfur.dioxide 
##         1.079146e+00         5.677681e-03         1.014018e+00 
## total.sulfur.dioxide              density                   pH 
##         9.888679e-01         5.648639e-22         3.735452e-01 
##            sulphates              alcohol 
##         1.758835e+01         2.353997e+00

4.9 Uji Proportional Odds

library(brant)
brant(model_ord)
## ---------------------------------------------------- 
## Test for     X2  df  probability 
## ---------------------------------------------------- 
## Omnibus          132.36  44  0
## fixed.acidity        11.42   4   0.02
## volatile.acidity 11.13   4   0.03
## citric.acid      6.55    4   0.16
## residual.sugar       23.55   4   0
## chlorides        5.42    4   0.25
## free.sulfur.dioxide  4.78    4   0.31
## total.sulfur.dioxide 17.02   4   0
## density          12.44   4   0.01
## pH           16.34   4   0
## sulphates        4.64    4   0.33
## alcohol          2.48    4   0.65
## ---------------------------------------------------- 
## 
## H0: Parallel Regression Assumption holds

4.10 Interpretasi

4.10.1 Model Regresi Logistik Ordinal

Regresi logistik ordinal digunakan karena variabel respon quality merupakan kategori yang memiliki urutan alami dari kualitas rendah hingga kualitas tinggi. Model yang digunakan adalah Proportional Odds Model yang menghubungkan probabilitas kumulatif kualitas wine dengan variabel-variabel karakteristik kimia wine.

Secara umum, koefisien positif menunjukkan bahwa peningkatan nilai variabel prediktor akan meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi. Sebaliknya, koefisien negatif menunjukkan kecenderungan penurunan kualitas wine.

4.10.2 Evaluasi Signifikansi Parameter

Berdasarkan hasil pengujian parameter pada taraf signifikansi 5%, variabel yang berpengaruh signifikan terhadap kualitas wine adalah:

Variabel p-value Keputusan
fixed.acidity 0.0455 Signifikan
volatile.acidity < 0.001 Signifikan
residual.sugar 0.0462 Signifikan
chlorides < 0.001 Signifikan
free.sulfur.dioxide 0.0397 Signifikan
total.sulfur.dioxide < 0.001 Signifikan
density < 0.001 Signifikan
pH 0.0475 Signifikan
sulphates < 0.001 Signifikan
alcohol < 0.001 Signifikan

Sedangkan variabel citric.acid memiliki nilai p-value sebesar 0.0817 sehingga tidak signifikan pada taraf 5%.

4.10.3 Interpretasi Odds Ratio

Interpretasi dilakukan menggunakan Odds Ratio (OR):

\[OR=e^{\beta_j}\]

4.10.3.1 Fixed Acidity

Koefisien:

\[\beta=0.1024\]

Odds Ratio:

\[OR=1.108\]

Interpretasi:

Setiap peningkatan satu satuan fixed acidity meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 1,108 kali atau sekitar 10,8%, dengan asumsi variabel lain konstan.


4.10.3.2 Volatile Acidity

Koefisien:

\[\beta=-3.4179\]

Odds Ratio:

\[OR=0.0328\]

Interpretasi:

Setiap peningkatan satu satuan volatile acidity menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar:

\[(1-0.0328)\times100\%=96.72\%\]

Hasil ini menunjukkan bahwa kadar volatile acidity yang tinggi merupakan faktor utama yang menurunkan kualitas wine.


4.10.3.3 Residual Sugar

Koefisien:

\[\beta=0.0762\]

Odds Ratio:

\[OR=1.079\]

Interpretasi:

Peningkatan satu satuan residual sugar meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 7,9%.


4.10.3.4 Chlorides

Koefisien:

\[\beta=-5.1712\]

Odds Ratio:

\[OR=0.0057\]

Interpretasi:

Peningkatan kandungan chlorides secara signifikan menurunkan peluang wine masuk ke kategori kualitas yang lebih tinggi. Semakin tinggi kadar garam (chlorides), kualitas wine cenderung semakin rendah.


4.10.3.5 Free Sulfur Dioxide

Koefisien:

\[\beta=0.0139\]

Odds Ratio:

\[OR=1.014\]

Interpretasi:

Peningkatan satu satuan free sulfur dioxide meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 1,4%.


4.10.3.6 Total Sulfur Dioxide

Koefisien:

\[\beta=-0.0112\]

Odds Ratio:

\[OR=0.989\]

Interpretasi:

Peningkatan total sulfur dioxide menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 1,1%.


4.10.3.7 Density

Koefisien:

\[\beta=-48.9255\]

Odds Ratio:

\[OR=5.65\times10^{-22}\]

Interpretasi:

Variabel density memiliki pengaruh negatif yang sangat kuat terhadap kualitas wine. Semakin tinggi densitas wine, peluang untuk memperoleh kualitas yang lebih tinggi menjadi sangat kecil.


4.10.3.8 pH

Koefisien:

\[\beta=-0.9847\]

Odds Ratio:

\[OR=0.374\]

Interpretasi:

Peningkatan pH menyebabkan peluang wine berada pada kategori kualitas yang lebih tinggi menurun sekitar 62,6%.


4.10.3.9 Sulphates

Koefisien:

\[\beta=2.8672\]

Odds Ratio:

\[OR=17.59\]

Interpretasi:

Setiap peningkatan satu satuan sulphates meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 17,59 kali.

Variabel ini merupakan salah satu faktor yang paling kuat dalam meningkatkan kualitas wine.


4.10.3.10 Alcohol

Koefisien:

\[\beta=0.8561\]

Odds Ratio:

\[OR=2.354\]

Interpretasi:

Setiap peningkatan satu satuan kadar alkohol meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 2,35 kali.

Hasil ini menunjukkan bahwa wine dengan kadar alkohol yang lebih tinggi cenderung memperoleh penilaian kualitas yang lebih baik.

4.10.4 Uji Asumsi Parallel Regression

Berdasarkan hasil Brant Test diperoleh:

\[\chi^2 = 132.36\]

dengan

\[p\text{-value}<0.05\]

Hasil tersebut menunjukkan bahwa secara keseluruhan asumsi proportional odds tidak sepenuhnya terpenuhi. Beberapa variabel seperti:

  • fixed.acidity
  • volatile.acidity
  • residual.sugar
  • total.sulfur.dioxide
  • density
  • pH

menunjukkan pelanggaran asumsi parallel regression.

Namun demikian, model ordinal masih dapat digunakan sebagai pendekatan awal untuk mengidentifikasi faktor-faktor yang memengaruhi kualitas wine.

4.11 Kesimpulan

Berdasarkan hasil analisis regresi logistik ordinal terhadap data kualitas wine diperoleh bahwa sebagian besar karakteristik kimia wine berpengaruh signifikan terhadap kualitas wine.

Variabel yang terbukti meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi adalah:

  1. fixed.acidity
  2. residual.sugar
  3. free.sulfur.dioxide
  4. sulphates
  5. alcohol

Sedangkan variabel yang menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi adalah:

  1. volatile.acidity
  2. chlorides
  3. total.sulfur.dioxide
  4. density
  5. pH

Variabel yang tidak berpengaruh signifikan pada taraf 5% adalah:

  1. citric.acid

Berdasarkan nilai Odds Ratio, variabel sulphates dan alcohol merupakan faktor yang paling kuat dalam meningkatkan kualitas wine. Sebaliknya, volatile acidity, chlorides, dan density merupakan faktor utama yang menurunkan kualitas wine.

Dengan demikian, peningkatan kualitas wine dapat dicapai melalui pengendalian komposisi kimia, khususnya dengan menjaga kadar sulphates dan alcohol pada tingkat yang optimal serta menekan kadar volatile acidity dan chlorides yang berlebihan.

5 REGRESI LOGISTIK POISSON

5.1 Teori

Regresi Poisson merupakan salah satu anggota keluarga Generalized Linear Model (GLM) yang digunakan untuk memodelkan variabel respon berupa data hitung (count data) (Dobson & Barnett, 2018). Data hitung merupakan data yang menunjukkan banyaknya kejadian yang terjadi dalam suatu interval waktu, wilayah, atau unit observasi tertentu.

Contoh data hitung antara lain:

  • Jumlah wisatawan
  • Jumlah kecelakaan lalu lintas
  • Jumlah pasien rumah sakit
  • Jumlah kunjungan wisata
  • Jumlah pelanggan

Karakteristik utama data hitung adalah:

  1. Bernilai bilangan bulat non-negatif.
  2. Tidak dapat bernilai negatif.
  3. Umumnya memiliki distribusi menceng ke kanan.
  4. Varians sering meningkat seiring meningkatnya rata-rata.

Misalkan variabel respon dinyatakan sebagai:

\[Y_i = 0,1,2,\ldots\]

dan mengikuti distribusi Poisson:

\[Y_i \sim Poisson(\mu_i)\]

dengan:

\[E(Y_i)=\mu_i\]

dan

\[Var(Y_i)=\mu_i\]

Sifat penting distribusi Poisson adalah nilai rata-rata dan variansnya sama.

Distribusi Poisson

Fungsi probabilitas distribusi Poisson dinyatakan sebagai:

\[P(Y=y) = \frac {e^{-\mu}\mu^y} {y!}\]

untuk:

\[y=0,1,2,\ldots\]

dengan:

Simbol Keterangan
\(Y\) Variabel respon
\(y\) Nilai observasi
\(\mu\) Rata-rata kejadian
\(e\) Bilangan eksponensial
\(y!\) Faktorial

Distribusi Poisson digunakan ketika data menunjukkan jumlah kejadian yang terjadi dalam suatu periode tertentu.

Model Regresi Poisson

Dalam regresi Poisson, nilai harapan variabel respon dihubungkan dengan variabel prediktor menggunakan fungsi link logaritma.

Model regresi Poisson dinyatakan sebagai:

\[\log(\mu_i) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]

atau dapat dituliskan:

\[\mu_i = \exp ( \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p )\]

dengan:

Simbol Keterangan
\(\mu_i\) Ekspektasi jumlah kejadian
\(\beta_0\) Intersep
\(\beta_j\) Koefisien regresi
\(X_j\) Variabel prediktor

Karena fungsi eksponensial selalu bernilai positif, model ini menjamin nilai prediksi tidak akan negatif.

Interpretasi Koefisien

Koefisien regresi Poisson diinterpretasikan menggunakan perubahan logaritma rata-rata kejadian.

Untuk mempermudah interpretasi digunakan ukuran:

\[IRR=e^\beta\]

yang dikenal sebagai Incidence Rate Ratio.

Incidence Rate Ratio (IRR)

Incidence Rate Ratio menunjukkan perubahan relatif rata-rata jumlah kejadian akibat peningkatan satu satuan variabel prediktor.

\[IRR=e^{\beta_j}\]

Interpretasi:

  • \(IRR>1\) menunjukkan peningkatan ekspektasi jumlah kejadian.
  • \(IRR<1\) menunjukkan penurunan ekspektasi jumlah kejadian.
  • \(IRR=1\) menunjukkan tidak terdapat pengaruh.

Sebagai contoh:

\[IRR=1.20\]

berarti peningkatan satu satuan variabel prediktor menyebabkan rata-rata kejadian meningkat sebesar:

\[20\%\]

Sebaliknya:

\[IRR=0.80\]

menunjukkan rata-rata kejadian menurun sebesar:

\[20\%\]

Estimasi Parameter

Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).

Fungsi likelihood Poisson adalah:

\[L(\beta) = \prod_{i=1}^{n} \frac {e^{-\mu_i}\mu_i^{y_i}} {y_i!}\]

Kemudian dilakukan optimasi terhadap fungsi log-likelihood:

\[\ell(\beta) = \sum_{i=1}^{n} \left[ y_i\log(\mu_i) - \mu_i - \log(y_i!) \right]\]

Estimasi parameter diperoleh menggunakan algoritma iteratif seperti Fisher Scoring atau Newton-Raphson (McCullagh & Nelder, 1989).

Pengujian Parameter

Signifikansi parameter dapat diuji menggunakan statistik Wald:

\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]

Hipotesis yang diuji:

\[H_0:\beta_j=0\]

\[H_1:\beta_j\neq0\]

Apabila:

\[p\text{-value}<0.05\]

maka variabel prediktor berpengaruh signifikan terhadap jumlah kejadian.

5.2 Asumsi

Beberapa asumsi penting regresi Poisson adalah:

  1. Variabel respon berupa data hitung.
  2. Observasi saling independen.
  3. Tidak terjadi multikolinearitas tinggi.
  4. Hubungan antara prediktor dan respon mengikuti fungsi link log.
  5. Mean dan varians respon sama.

Asumsi terakhir dikenal sebagai asumsi equidispersion:

\[E(Y)=Var(Y)\]

5.3 Overdispersion

Dalam praktik sering ditemukan:

\[Var(Y)>E(Y)\]

Kondisi tersebut disebut overdispersion.

Overdispersion menyebabkan:

  • Standard error menjadi bias.
  • Nilai p-value menjadi terlalu kecil.
  • Kesimpulan statistik dapat menjadi tidak valid.

Pengujian overdispersion dapat dilakukan menggunakan:

  • Dispersion Test
  • Pearson Chi-Square
  • Deviance Statistic

Hipotesis yang diuji:

\[H_0: Var(Y)=E(Y)\]

\[H_1: Var(Y)>E(Y)\]

Jika p-value < 0.05 maka terjadi overdispersion.

5.4 Regresi Negative Binomial

Apabila terjadi overdispersion, maka model yang lebih sesuai adalah regresi Negative Binomial.

Model ini merupakan pengembangan dari regresi Poisson dengan menambahkan parameter dispersi:

\[Var(Y) = \mu+\alpha\mu^2\]

dengan:

\[\alpha>0\]

merupakan parameter overdispersion.

Model regresi Negative Binomial memiliki bentuk fungsi link yang sama dengan regresi Poisson:

\[\log(\mu_i) = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p\]

Namun model ini lebih fleksibel karena mampu mengakomodasi varians yang lebih besar daripada rata-ratanya.

Oleh karena itu, ketika ditemukan overdispersion yang signifikan, model Negative Binomial umumnya lebih direkomendasikan dibandingkan model Poisson (Hilbe, 2011).

5.5 Data dan Variabel

5.5.1 Variabel Respon

Variabel respon yang digunakan adalah:

\[Y= \text{Perjalanan Wisatawan}\]

Variabel ini menunjukkan jumlah perjalanan wisatawan yang tercatat pada setiap wilayah pengamatan.

Karena berbentuk data hitung, metode yang sesuai digunakan adalah regresi Poisson.

5.5.2 Variabel Prediktor

Variabel prediktor yang digunakan adalah:

Variabel Keterangan
PDRB Produk Domestik Regional Bruto
Desa Penerima Internet Desa yang memperoleh akses internet
Kamar Hotel Bintang Tersedia Kapasitas akomodasi hotel
Jumlah Kendaraan Kendaraan bermotor yang tersedia
Rata-Rata Upah Tingkat upah pekerja

Model regresi Poisson yang digunakan adalah:

\[\text{Perjalanan Wisatawan} \sim PDRB + \text{Desa Penerima Internet} + \text{Kamar Hotel Bintang Tersedia} + \text{Jumlah Kendaraan} + \text{Rata-Rata Upah}\]

Model ini digunakan untuk mengidentifikasi faktor-faktor ekonomi, infrastruktur, dan aksesibilitas yang memengaruhi jumlah perjalanan wisatawan.

.

5.6 Import Data

wisata <- read.csv(
  "C:/Users/user/Downloads/Data LogPoisson_Wisata.csv"
)

5.7 Eksplorasi Data

ggplot(wisata,aes(`Perjalanan.Wisatawan`))+
geom_histogram(bins=30,fill="orange")

5.8 Estimasi Model

model_pois <- glm(
`Perjalanan.Wisatawan` ~
`PDRB` +
`Desa.Penerima.Internet` +
`Kamar.Hotel.Bintang.Tersedia` +
`Jumlah.Kendaraan` +
`Rata.Rata.Upah`,
family=poisson(link="log"),
data=wisata)

summary(model_pois)
## 
## Call:
## glm(formula = Perjalanan.Wisatawan ~ PDRB + Desa.Penerima.Internet + 
##     Kamar.Hotel.Bintang.Tersedia + Jumlah.Kendaraan + Rata.Rata.Upah, 
##     family = poisson(link = "log"), data = wisata)
## 
## Coefficients:
##                                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                   1.688e+01  3.080e-04 54819.0   <2e-16 ***
## PDRB                          7.448e-07  1.162e-10  6407.9   <2e-16 ***
## Desa.Penerima.Internet        2.413e-05  3.505e-08   688.3   <2e-16 ***
## Kamar.Hotel.Bintang.Tersedia  1.235e-05  2.456e-09  5028.4   <2e-16 ***
## Jumlah.Kendaraan              3.337e-08  1.211e-11  2754.9   <2e-16 ***
## Rata.Rata.Upah               -2.295e-07  8.447e-11 -2717.1   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 2017316570  on 37  degrees of freedom
## Residual deviance:  259660317  on 32  degrees of freedom
## AIC: 259661017
## 
## Number of Fisher Scoring iterations: 5

5.9 Incidence Rate Ratio

exp(coef(model_pois))
##                  (Intercept)                         PDRB 
##                 2.145663e+07                 1.000001e+00 
##       Desa.Penerima.Internet Kamar.Hotel.Bintang.Tersedia 
##                 1.000024e+00                 1.000012e+00 
##             Jumlah.Kendaraan               Rata.Rata.Upah 
##                 1.000000e+00                 9.999998e-01

5.10 Uji Overdispersion

dispersiontest(model_pois)
## 
##  Overdispersion test
## 
## data:  model_pois
## z = 2.168, p-value = 0.01508
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##    7463877

5.11 Alternatif Negative Binomial

model_nb <- glm.nb(
`Perjalanan.Wisatawan` ~
`PDRB` +
`Desa.Penerima.Internet` +
`Kamar.Hotel.Bintang.Tersedia` +
`Jumlah.Kendaraan` +
`Rata.Rata.Upah`,
data=wisata)

summary(model_nb)
## 
## Call:
## glm.nb(formula = Perjalanan.Wisatawan ~ PDRB + Desa.Penerima.Internet + 
##     Kamar.Hotel.Bintang.Tersedia + Jumlah.Kendaraan + Rata.Rata.Upah, 
##     data = wisata, init.theta = 2.019679624, link = log)
## 
## Coefficients:
##                                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                   1.820e+01  8.447e-01  21.540  < 2e-16 ***
## PDRB                          1.405e-06  5.853e-07   2.400  0.01641 *  
## Desa.Penerima.Internet       -2.895e-05  1.223e-04  -0.237  0.81286    
## Kamar.Hotel.Bintang.Tersedia  1.596e-05  9.724e-06   1.642  0.10063    
## Jumlah.Kendaraan              4.920e-08  6.309e-08   0.780  0.43546    
## Rata.Rata.Upah               -7.426e-07  2.291e-07  -3.241  0.00119 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(2.0197) family taken to be 1)
## 
##     Null deviance: 155.311  on 37  degrees of freedom
## Residual deviance:  41.066  on 32  degrees of freedom
## AIC: 1336.8
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  2.020 
##           Std. Err.:  0.431 
## 
##  2 x log-likelihood:  -1322.796

5.12 Interpretasi

5.12.1 Model Regresi Poisson

Model regresi Poisson digunakan untuk menganalisis pengaruh faktor-faktor ekonomi dan infrastruktur terhadap jumlah perjalanan wisatawan. Model yang diperoleh adalah:

\[\log(\mu_i) = 16.88 +0.0000007448(PDRB) +0.00002413(Desa\ Penerima\ Internet) +0.00001235(Kamar\ Hotel\ Bintang\ Tersedia) +0.00000003337(Jumlah\ Kendaraan) -0.0000002295(Rata\text{-}Rata\ Upah)\]

dengan:

\[\mu_i = E(Y_i)\]

menyatakan nilai harapan jumlah perjalanan wisatawan.

Karena model menggunakan fungsi link logaritma, interpretasi koefisien dilakukan menggunakan Incidence Rate Ratio (IRR):

\[IRR=e^{\beta_j}\]

Nilai IRR menunjukkan perubahan ekspektasi jumlah perjalanan wisatawan akibat kenaikan satu satuan variabel prediktor dengan asumsi variabel lain konstan.

Secara umum:

  • \(IRR>1\) menunjukkan peningkatan ekspektasi jumlah perjalanan wisatawan.
  • \(IRR<1\) menunjukkan penurunan ekspektasi jumlah perjalanan wisatawan.
  • \(IRR=1\) menunjukkan tidak terdapat pengaruh.

5.12.2 Evaluasi Signifikansi Parameter

Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel pada model Poisson memiliki nilai p-value kurang dari 0,05 sehingga signifikan secara statistik.

Variabel Koefisien p-value Keputusan
PDRB 7.448e-07 <0.001 Signifikan
Desa Penerima Internet 2.413e-05 <0.001 Signifikan
Kamar Hotel Bintang Tersedia 1.235e-05 <0.001 Signifikan
Jumlah Kendaraan 3.337e-08 <0.001 Signifikan
Rata-Rata Upah -2.295e-07 <0.001 Signifikan

5.12.3 Interpretasi Incidence Rate Ratio (IRR)

5.12.3.1 PDRB

Nilai IRR:

\[IRR=e^{0.0000007448} \approx 1.000001\]

Interpretasi:

Peningkatan PDRB menyebabkan ekspektasi jumlah perjalanan wisatawan meningkat. Hubungan positif ini menunjukkan bahwa daerah dengan aktivitas ekonomi yang lebih tinggi cenderung menghasilkan jumlah perjalanan wisata yang lebih besar.


5.12.3.2 Desa Penerima Internet

Nilai IRR:

\[IRR=1.000024\]

Interpretasi:

Peningkatan jumlah desa yang menerima akses internet meningkatkan ekspektasi jumlah perjalanan wisatawan. Ketersediaan internet dapat meningkatkan akses informasi mengenai destinasi wisata sehingga mendorong mobilitas wisatawan.


5.12.3.3 Kamar Hotel Bintang Tersedia

Nilai IRR:

\[IRR=1.000012\]

Interpretasi:

Semakin banyak kamar hotel bintang yang tersedia maka ekspektasi jumlah perjalanan wisatawan semakin meningkat. Infrastruktur akomodasi yang baik mampu mendukung pertumbuhan aktivitas pariwisata.


5.12.3.4 Jumlah Kendaraan

Nilai IRR:

\[IRR=1.000000\]

Interpretasi:

Koefisien positif menunjukkan bahwa peningkatan jumlah kendaraan berkaitan dengan peningkatan jumlah perjalanan wisatawan. Ketersediaan sarana transportasi dapat meningkatkan mobilitas masyarakat menuju destinasi wisata.


5.12.3.5 Rata-Rata Upah

Nilai IRR:

\[IRR=0.9999998\]

Interpretasi:

Koefisien negatif menunjukkan bahwa peningkatan rata-rata upah berkaitan dengan penurunan ekspektasi jumlah perjalanan wisatawan. Hasil ini mengindikasikan adanya hubungan yang berlawanan arah antara tingkat upah dan jumlah perjalanan wisata pada data yang digunakan.

5.12.4 Uji Overdispersi

Salah satu asumsi penting regresi Poisson adalah:

\[E(Y)=Var(Y)\]

yang berarti nilai rata-rata dan varians respon harus sama.

Berdasarkan hasil uji overdispersi diperoleh:

\[z=2.168\]

dengan

\[p\text{-value}=0.01508\]

Karena nilai p-value lebih kecil dari 0,05 maka terdapat bukti terjadinya overdispersi.

Selain itu diperoleh nilai dispersi sebesar:

\[\hat{\phi}=7.463.877\]

yang jauh lebih besar dari satu.

Hasil ini menunjukkan bahwa asumsi dasar regresi Poisson tidak terpenuhi sehingga model Poisson berpotensi menghasilkan standar error yang terlalu kecil dan kesimpulan yang kurang akurat.

5.12.5 Model Negative Binomial

Untuk mengatasi overdispersi dilakukan estimasi menggunakan model Negative Binomial.
Hasil estimasi menunjukkan bahwa variabel yang signifikan adalah:

Variabel p-value Keputusan
PDRB 0.0164 Signifikan
Rata-Rata Upah 0.0012 Signifikan
Desa Penerima Internet 0.8129 Tidak Signifikan
Kamar Hotel Bintang Tersedia 0.1006 Tidak Signifikan
Jumlah Kendaraan 0.4355 Tidak Signifikan

Model Negative Binomial menghasilkan:

\[AIC = 1336.8\]

dengan parameter dispersi:

\[\theta = 2.020\]

yang menunjukkan bahwa model telah mengakomodasi variasi data yang lebih besar dibandingkan model Poisson.

5.12.6 Perbandingan Model Poisson dan Negative Binomial

Kriteria Poisson Negative Binomial
Asumsi Mean = Variance Ya Tidak
Overdispersi Tidak teratasi Teratasi
Uji Overdispersi Signifikan Sudah diakomodasi
Interpretasi IRR IRR
Kesesuaian untuk data ini Kurang sesuai Lebih sesuai

Dengan adanya overdispersi yang sangat besar, model Negative Binomial dinilai lebih tepat digunakan untuk menjelaskan jumlah perjalanan wisatawan dibandingkan model Poisson.

5.13 Kesimpulan

Berdasarkan hasil regresi Poisson diperoleh bahwa seluruh variabel, yaitu PDRB, Desa Penerima Internet, Kamar Hotel Bintang Tersedia, Jumlah Kendaraan, dan Rata-Rata Upah berpengaruh signifikan terhadap jumlah perjalanan wisatawan.

Variabel PDRB, Desa Penerima Internet, Kamar Hotel Bintang Tersedia, dan Jumlah Kendaraan memiliki pengaruh positif terhadap jumlah perjalanan wisatawan, sedangkan variabel Rata-Rata Upah memiliki pengaruh negatif.

Namun demikian, hasil uji overdispersi menunjukkan bahwa asumsi dasar regresi Poisson tidak terpenuhi sehingga model Poisson kurang sesuai digunakan pada data ini.

Model Negative Binomial yang dibentuk sebagai alternatif menunjukkan bahwa hanya variabel PDRB dan Rata-Rata Upah yang tetap signifikan setelah overdispersi diperhitungkan. Oleh karena itu, model Negative Binomial dinilai lebih tepat dan lebih reliabel dalam menjelaskan faktor-faktor yang memengaruhi jumlah perjalanan wisatawan.

Secara substantif, hasil penelitian menunjukkan bahwa kondisi ekonomi daerah yang tercermin melalui PDRB merupakan faktor utama yang mendorong peningkatan jumlah perjalanan wisatawan, sedangkan tingkat upah memiliki hubungan yang berlawanan arah terhadap jumlah perjalanan wisata yang terjadi.

6 PERBANDINGAN MODEL

6.1 Perbandingan Karakteristik Model

Keempat model yang digunakan pada penelitian ini merupakan bagian dari keluarga Generalized Linear Model (GLM). Meskipun sama-sama digunakan untuk menganalisis hubungan antara variabel respon dan variabel prediktor, masing-masing model memiliki karakteristik, asumsi, serta interpretasi yang berbeda sesuai dengan jenis data yang dianalisis.

Model Jenis Respon Skala Data Respon Fungsi Link Distribusi
Regresi Logistik Biner Dua kategori Nominal Logit Binomial
Regresi Logistik Multinomial Lebih dari dua kategori tanpa urutan Nominal Generalized Logit Multinomial
Regresi Logistik Ordinal Lebih dari dua kategori berurutan Ordinal Cumulative Logit Multinomial Ordinal
Regresi Poisson Data hitung (count) Rasio Log Poisson

6.2 Perbedaan Interpretasi Koefisien

Interpretasi parameter pada masing-masing model juga berbeda.

6.2.1 Regresi Logistik Biner

Koefisien diinterpretasikan menggunakan Odds Ratio (OR).

\[OR=e^{\beta_j}\]

Nilai OR menunjukkan perubahan peluang terjadinya suatu kejadian akibat kenaikan satu satuan variabel prediktor.

6.2.2 Regresi Logistik Multinomial

Koefisien diinterpretasikan menggunakan Relative Risk Ratio (RRR).

\[RRR=e^{\beta_j}\]

Nilai RRR menggambarkan perubahan peluang suatu kategori respon dibandingkan kategori referensi.

6.2.3 Regresi Logistik Ordinal

Koefisien diinterpretasikan menggunakan Odds Ratio Kumulatif.

Interpretasi dilakukan terhadap peluang respon berada pada kategori yang lebih tinggi dibandingkan kategori yang lebih rendah.

6.2.4 Regresi Poisson

Koefisien diinterpretasikan menggunakan Incidence Rate Ratio (IRR).

\[IRR=e^{\beta_j}\]

Nilai IRR menunjukkan perubahan ekspektasi jumlah kejadian akibat kenaikan satu satuan variabel prediktor.

6.3 Perbandingan Hasil berdasarkan Kasus

6.3.1 Studi Kasus 1: Regresi Logistik Biner (Diabetes)

Model logistik biner digunakan untuk memodelkan status diabetes yang terdiri atas dua kategori, yaitu diabetes dan tidak diabetes.

Hasil analisis menunjukkan bahwa model memiliki performa yang baik dengan:

  • Accuracy = 78,26%
  • Hosmer-Lemeshow p-value = 0,2988
  • McFadden R² = 0,2718

Variabel yang berpengaruh signifikan terhadap kejadian diabetes adalah:

  1. Pregnancies
  2. Glucose
  3. BloodPressure
  4. BMI
  5. DiabetesPedigreeFunction

Hasil menunjukkan bahwa kadar glukosa darah, indeks massa tubuh, riwayat keluarga diabetes, serta jumlah kehamilan merupakan faktor penting yang meningkatkan risiko seseorang mengalami diabetes.


6.3.2 Studi Kasus 2: Regresi Logistik Multinomial (Mode Choice)

Model logistik multinomial digunakan karena variabel respon berupa pilihan moda transportasi yang terdiri atas beberapa kategori tanpa urutan tertentu.

Model menghasilkan:

  • Accuracy = 86,67%
  • Kappa = 0,8162

Variabel yang berpengaruh signifikan adalah:

  1. Travel Time (ttme)
  2. Travel Cost (invc)
  3. In Vehicle Time (invt)
  4. Generalized Cost (gc)
  5. Household Income (hinc)
  6. Household Size (psize)

Hasil menunjukkan bahwa waktu perjalanan dan biaya perjalanan merupakan faktor dominan dalam keputusan pemilihan moda transportasi. Selain itu, karakteristik sosial ekonomi rumah tangga juga memengaruhi preferensi transportasi yang dipilih.


6.3.3 Studi Kasus 3: Regresi Logistik Ordinal (Wine Quality)

Model logistik ordinal digunakan karena kualitas wine memiliki tingkatan kualitas yang berurutan.

Variabel yang berpengaruh signifikan terhadap kualitas wine adalah:

  1. fixed acidity
  2. volatile acidity
  3. residual sugar
  4. chlorides
  5. free sulfur dioxide
  6. total sulfur dioxide
  7. density
  8. pH
  9. sulphates
  10. alcohol

Variabel yang tidak signifikan:

  1. citric acid

Berdasarkan nilai Odds Ratio, variabel yang paling meningkatkan kualitas wine adalah:

  • sulphates
  • alcohol

Sedangkan variabel yang paling menurunkan kualitas wine adalah:

  • volatile acidity
  • chlorides
  • density

Temuan ini menunjukkan bahwa komposisi kimia wine berperan penting dalam menentukan tingkat kualitas produk.


6.3.4 Studi Kasus 4: Regresi Poisson (Perjalanan Wisatawan)

Model Poisson digunakan untuk memodelkan jumlah perjalanan wisatawan yang merupakan data hitung.

Pada model Poisson seluruh variabel signifikan:

  1. PDRB
  2. Desa Penerima Internet
  3. Kamar Hotel Bintang Tersedia
  4. Jumlah Kendaraan
  5. Rata-Rata Upah

Namun hasil uji overdispersi menunjukkan:

\[p\text{-value}=0.01508\]

yang mengindikasikan adanya overdispersi.

Oleh karena itu dilakukan estimasi menggunakan model Negative Binomial.

Pada model Negative Binomial diperoleh bahwa variabel yang tetap signifikan adalah:

  1. PDRB
  2. Rata-Rata Upah

Hasil ini menunjukkan bahwa setelah variasi data diperhitungkan secara lebih realistis, faktor ekonomi daerah menjadi faktor utama yang memengaruhi jumlah perjalanan wisatawan.

6.4 Ringkasan Temuan Utama

Secara keseluruhan diperoleh beberapa temuan penting sebagai berikut.

6.4.1 Bidang Kesehatan

Pada kasus diabetes, faktor biologis dan riwayat keluarga memiliki pengaruh terbesar terhadap kemungkinan seseorang mengalami diabetes. Variabel Glucose, BMI, dan Diabetes Pedigree Function menjadi prediktor utama dalam model.

6.4.2 Bidang Transportasi

Pada kasus pemilihan moda transportasi, faktor biaya dan waktu perjalanan merupakan determinan utama keputusan individu dalam memilih moda transportasi.

6.4.3 Bidang Industri Pangan

Pada kasus kualitas wine, karakteristik kimia produk sangat menentukan kualitas akhir yang dihasilkan. Kandungan sulphates dan alcohol terbukti meningkatkan kualitas wine secara signifikan.

6.4.4 Bidang Pariwisata

Pada kasus perjalanan wisatawan, kondisi ekonomi daerah yang direpresentasikan oleh PDRB menjadi faktor yang paling konsisten memengaruhi jumlah perjalanan wisatawan.

7 INTERPRETASI

Regresi logistik biner, multinomial, ordinal, dan Poisson merupakan metode yang sangat penting dalam analisis data kategorik dan data hitung. Pemilihan model harus disesuaikan dengan karakteristik variabel respon yang digunakan.

Kesalahan dalam memilih model dapat menyebabkan interpretasi yang tidak tepat dan kesimpulan yang menyesatkan. Oleh karena itu identifikasi jenis data respon merupakan tahap awal yang sangat penting sebelum melakukan pemodelan statistik.

Hasil penelitian menunjukkan bahwa setiap model mampu menjelaskan hubungan antara variabel respon dan variabel prediktor sesuai karakteristik datanya masing-masing.

8 KESIMPULAN

Berdasarkan seluruh analisis yang telah dilakukan, diperoleh beberapa kesimpulan utama sebagai berikut.

  1. Regresi logistik biner berhasil digunakan untuk memodelkan risiko diabetes dengan tingkat akurasi sebesar 78,26%. Faktor utama yang meningkatkan risiko diabetes adalah Glucose, BMI, Diabetes Pedigree Function, Pregnancies, dan Blood Pressure.

  2. Regresi logistik multinomial berhasil digunakan untuk menganalisis pemilihan moda transportasi dengan tingkat akurasi sebesar 86,67%. Faktor biaya perjalanan, waktu perjalanan, pendapatan rumah tangga, dan ukuran rumah tangga terbukti memengaruhi keputusan pemilihan moda.

  3. Regresi logistik ordinal berhasil digunakan untuk menganalisis kualitas wine berdasarkan karakteristik kimia produk. Variabel sulphates dan alcohol merupakan faktor yang paling meningkatkan kualitas wine, sedangkan volatile acidity, chlorides, dan density cenderung menurunkan kualitas wine.

  4. Regresi Poisson berhasil digunakan untuk menganalisis jumlah perjalanan wisatawan. Akan tetapi ditemukan adanya overdispersi sehingga model Negative Binomial memberikan hasil yang lebih reliabel. Variabel PDRB dan Rata-Rata Upah merupakan faktor yang paling konsisten memengaruhi jumlah perjalanan wisatawan.

  5. Keempat model yang digunakan menunjukkan bahwa pendekatan Generalized Linear Model sangat fleksibel dalam menangani berbagai jenis variabel respon, baik kategorik maupun data hitung.

  6. Pemilihan model yang sesuai dengan karakteristik data merupakan faktor utama dalam menghasilkan inferensi statistik yang valid dan interpretasi yang tepat.

9 DAFTAR PUSTAKA

Agresti, A. (2018). An Introduction to Categorical Data Analysis (3rd ed.). Wiley. ISBN: 978-1119405269

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley. ISBN: 978-1118730034

Dobson, A. J., & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4th ed.). CRC Press. ISBN: 978-1138741515

Faraway, J. J. (2016). Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models (2nd ed.). CRC Press. ISBN: 978-1498720960

Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models (3rd ed.). Sage Publications. ISBN: 978-1483388916

Hardin, J. W., & Hilbe, J. M. (2018). Generalized Linear Models and Extensions (4th ed.). Stata Press. ISBN: 978-1597182836

Hilbe, J. M. (2011). Negative Binomial Regression (2nd ed.). Cambridge University Press. https://doi.org/10.1017/CBO9780511973420

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley. https://doi.org/10.1002/9781118548387

Long, J. S., & Freese, J. (2014). Regression Models for Categorical Dependent Variables Using Stata (3rd ed.). Stata Press. ISBN: 978-1597181112

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall. https://doi.org/10.1007/978-1-4899-3242-6

Menard, S. (2010). Logistic Regression: From Introductory to Advanced Concepts and Applications. Sage Publications. ISBN: 978-1412974837

O’Hara, R. B., & Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118–122. https://doi.org/10.1111/j.2041-210X.2010.00021.x

Verbeek, M. (2017). A Guide to Modern Econometrics (5th ed.). Wiley. ISBN: 978-1119401155

Washington, S. P., Karlaftis, M. G., Mannering, F. L., & Anastasopoulos, P. (2020). Statistical and Econometric Methods for Transportation Data Analysis (3rd ed.). CRC Press. https://doi.org/10.1201/9780429244018