Perkembangan teknologi informasi dan kemampuan komputasi telah menyebabkan meningkatnya ketersediaan data dalam berbagai bidang, seperti kesehatan, transportasi, industri pangan, ekonomi, dan pariwisata. Ketersediaan data yang semakin besar mendorong kebutuhan akan metode analisis statistik yang mampu menjelaskan hubungan antara suatu variabel respon dengan sejumlah variabel prediktor secara tepat dan akurat. Salah satu metode yang paling sering digunakan dalam analisis hubungan antarvariabel adalah regresi.
Regresi linear merupakan metode statistik yang umum digunakan untuk memodelkan hubungan antara variabel respon dan variabel prediktor. Akan tetapi, regresi linear klasik memiliki beberapa asumsi penting, seperti variabel respon harus bersifat kontinu, galat berdistribusi normal, memiliki ragam yang homogen (homoskedastisitas), dan hubungan antara variabel respon dengan prediktor bersifat linear. Dalam praktiknya, banyak penelitian yang melibatkan variabel respon yang tidak memenuhi karakteristik tersebut, misalnya data dengan kategori dua kelas (ya/tidak), data dengan kategori lebih dari dua kelas, data dengan tingkatan tertentu, maupun data berupa jumlah kejadian atau frekuensi. Pada kondisi demikian, penggunaan regresi linear dapat menghasilkan estimasi yang bias, prediksi yang tidak realistis, serta kesimpulan yang kurang tepat (Hosmer, Lemeshow, & Sturdivant, 2013).
Untuk mengatasi keterbatasan tersebut, dikembangkan suatu kerangka pemodelan yang lebih fleksibel yang dikenal sebagai Generalized Linear Model (GLM). Menurut McCullagh dan Nelder (1989), GLM merupakan perluasan dari model regresi linear klasik yang memungkinkan variabel respon mengikuti distribusi selain distribusi normal dan menghubungkan nilai harapan variabel respon dengan kombinasi linear variabel prediktor melalui suatu fungsi penghubung (link function). Kerangka GLM memungkinkan analisis terhadap berbagai jenis data, seperti data biner, data nominal, data ordinal, maupun data hitung.
Dalam keluarga GLM terdapat beberapa model yang sering digunakan sesuai dengan karakteristik variabel respon. Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kategori, misalnya seseorang menderita diabetes atau tidak menderita diabetes. Regresi logistik multinomial digunakan ketika variabel respon memiliki lebih dari dua kategori yang tidak memiliki urutan tertentu, misalnya pilihan moda transportasi. Regresi logistik ordinal digunakan ketika variabel respon memiliki tingkatan atau urutan tertentu, misalnya kualitas produk yang diklasifikasikan dalam kategori rendah, sedang, dan tinggi. Sementara itu, regresi Poisson digunakan ketika variabel respon berupa data hitung (count data), seperti jumlah kunjungan wisatawan, jumlah kecelakaan, atau jumlah kejadian penyakit tertentu (Agresti, 2018).
Regresi logistik biner merupakan salah satu model yang paling banyak digunakan dalam penelitian kesehatan dan epidemiologi. Model ini digunakan untuk menjelaskan peluang terjadinya suatu kejadian berdasarkan sejumlah faktor risiko. Dalam penelitian ini, regresi logistik biner diterapkan pada data diabetes dengan variabel respon berupa status diabetes (Outcome) dan sejumlah variabel prediktor yang meliputi Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, dan Age. Analisis ini bertujuan untuk mengidentifikasi faktor-faktor yang berpengaruh terhadap kemungkinan seseorang menderita diabetes.
Selain data biner, terdapat pula kasus ketika variabel respon memiliki lebih dari dua kategori tanpa urutan tertentu. Pada kondisi tersebut digunakan regresi logistik multinomial. Model ini memungkinkan peneliti untuk membandingkan peluang suatu kategori terhadap kategori referensi dan mengevaluasi pengaruh variabel prediktor terhadap setiap pilihan yang tersedia. Dalam penelitian ini, regresi logistik multinomial diterapkan pada data pemilihan moda transportasi (Mode Choice) dengan variabel respon berupa pilihan moda (choice) dan variabel prediktor berupa ttme, invc, invt, gc, hinc, dan psize.
Pada beberapa kasus, kategori respon memiliki urutan alami yang tidak dapat diabaikan. Sebagai contoh, kualitas suatu produk dapat diklasifikasikan menjadi rendah, sedang, dan tinggi. Untuk data seperti ini, regresi logistik ordinal menjadi metode yang lebih tepat karena mempertimbangkan informasi urutan kategori tersebut. Dalam penelitian ini, regresi logistik ordinal diterapkan pada data kualitas wine (Wine Quality) dengan variabel respon berupa tingkat kualitas wine (quality) dan sejumlah karakteristik kimia wine sebagai variabel prediktor.
Selanjutnya, banyak fenomena nyata yang menghasilkan data berupa jumlah kejadian atau frekuensi. Contohnya adalah jumlah perjalanan wisatawan, jumlah kunjungan rumah sakit, jumlah kecelakaan lalu lintas, dan jumlah kasus penyakit tertentu. Untuk data semacam ini, regresi Poisson merupakan metode yang umum digunakan karena didasarkan pada distribusi Poisson yang dirancang untuk memodelkan data hitung. Pada penelitian ini, regresi Poisson digunakan untuk menganalisis jumlah perjalanan wisatawan berdasarkan faktor-faktor ekonomi dan infrastruktur yang tersedia.
Melalui penerapan keempat model tersebut, penelitian ini diharapkan dapat memberikan pemahaman yang komprehensif mengenai penggunaan model-model dalam keluarga GLM sesuai dengan karakteristik data yang dianalisis. Selain itu, penelitian ini juga memberikan gambaran mengenai proses analisis mulai dari eksplorasi data, pembentukan model, evaluasi model, hingga interpretasi hasil yang dapat digunakan sebagai dasar pengambilan keputusan dan penyusunan kebijakan berbasis data.
Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dalam penelitian ini adalah sebagai berikut:
Bagaimana menerapkan regresi logistik biner untuk mengidentifikasi faktor-faktor yang memengaruhi status diabetes seseorang?
Bagaimana menerapkan regresi logistik multinomial untuk menganalisis faktor-faktor yang memengaruhi pemilihan moda transportasi?
Bagaimana menerapkan regresi logistik ordinal untuk mengidentifikasi faktor-faktor yang memengaruhi kualitas wine?
Bagaimana menerapkan regresi Poisson untuk menganalisis faktor-faktor yang memengaruhi jumlah perjalanan wisatawan?
Bagaimana mengevaluasi dan menginterpretasikan hasil dari masing-masing model berdasarkan karakteristik data yang digunakan?
Tujuan dari penelitian ini adalah:
Mempelajari konsep teoritis regresi logistik biner beserta implementasinya menggunakan software R.
Mempelajari konsep teoritis regresi logistik multinomial beserta implementasinya menggunakan software R.
Mempelajari konsep teoritis regresi logistik ordinal beserta implementasinya menggunakan software R.
Mempelajari konsep teoritis regresi Poisson beserta implementasinya menggunakan software R.
Mengidentifikasi faktor-faktor yang berpengaruh terhadap status diabetes menggunakan regresi logistik biner.
Mengidentifikasi faktor-faktor yang memengaruhi pemilihan moda transportasi menggunakan regresi logistik multinomial.
Mengidentifikasi faktor-faktor yang memengaruhi kualitas wine menggunakan regresi logistik ordinal.
Mengidentifikasi faktor-faktor yang memengaruhi jumlah perjalanan wisatawan menggunakan regresi Poisson.
Membandingkan karakteristik, interpretasi, dan hasil dari masing-masing model regresi yang digunakan.
Penelitian ini diharapkan memberikan manfaat sebagai berikut:
Menambah pemahaman mengenai konsep dan penerapan Generalized Linear Model (GLM).
Menjadi referensi pembelajaran mengenai regresi logistik biner, multinomial, ordinal, dan Poisson.
Memberikan contoh implementasi berbagai model regresi kategorik dan data hitung menggunakan perangkat lunak R.
Memberikan informasi mengenai faktor-faktor yang memengaruhi risiko diabetes.
Memberikan gambaran faktor-faktor yang memengaruhi pemilihan moda transportasi.
Memberikan informasi mengenai karakteristik yang berpengaruh terhadap kualitas wine.
Memberikan informasi mengenai faktor-faktor yang memengaruhi jumlah perjalanan wisatawan sehingga dapat menjadi bahan pertimbangan dalam sektor pariwisata.
Generalized Linear Model (GLM) merupakan perluasan dari model regresi linear klasik yang memungkinkan variabel respon mengikuti distribusi selain distribusi normal. Menurut McCullagh dan Nelder (1989), GLM terdiri atas tiga komponen utama, yaitu:
Komponen Acak (Random Component), yaitu distribusi probabilitas dari variabel respon.
Komponen Sistematik (Systematic Component), yaitu kombinasi linear variabel prediktor.
Fungsi Link (Link Function), yaitu fungsi yang menghubungkan nilai harapan variabel respon dengan prediktor linear.
Secara umum GLM dituliskan sebagai:
\[g(\mu_i)=\eta_i\]
dengan
\[\mu_i=E(Y_i)\]
dan
\[\eta_i=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p\]
di mana:
Pemilihan distribusi dan fungsi link bergantung pada karakteristik variabel respon yang dianalisis, yaitu:
| Model | Jenis Respon | Distribusi | Fungsi Link |
|---|---|---|---|
| Regresi Logistik Biner | Biner | Binomial | Logit |
| Regresi Logistik Multinomial | Nominal | Multinomial | Generalized Logit |
| Regresi Logistik Ordinal | Ordinal | Multinomial | Cumulative Logit |
| Regresi Poisson | Count Data | Poisson | Log |
Keunggulan utama GLM adalah kemampuannya menangani berbagai tipe data yang tidak dapat dianalisis secara tepat menggunakan regresi linear klasik. Oleh karena itu, GLM menjadi salah satu pendekatan yang paling banyak digunakan dalam penelitian kesehatan, ekonomi, sosial, transportasi, industri, dan pariwisata.
Laporan ini disusun dalam beberapa bagian utama sebagai berikut:
Bab I Pendahuluan, berisi latar belakang, rumusan masalah, tujuan, manfaat, dan konsep dasar GLM.
Bab II Regresi Logistik Biner, membahas teori dan penerapan regresi logistik biner pada data diabetes.
Bab III Regresi Logistik Multinomial, membahas teori dan penerapan regresi logistik multinomial pada data pemilihan moda transportasi.
Bab IV Regresi Logistik Ordinal, membahas teori dan penerapan regresi logistik ordinal pada data kualitas wine.
Bab V Regresi Poisson, membahas teori dan penerapan regresi Poisson pada data perjalanan wisatawan serta evaluasi menggunakan model Negative Binomial.
Bab VI Perbandingan Model, membahas perbandingan karakteristik dan hasil keempat model.
Interpretasi & Kesimpulan, berisi rangkuman hasil analisis dan insight yang diperoleh.
Regresi logistik biner merupakan salah satu anggota keluarga Generalized Linear Model (GLM) yang digunakan untuk memodelkan hubungan antara variabel respon kategorik yang terdiri atas dua kategori dengan satu atau lebih variabel prediktor (Hosmer, Lemeshow, & Sturdivant, 2013).
Berbeda dengan regresi linear yang memodelkan nilai rata-rata variabel respon secara langsung, regresi logistik memodelkan probabilitas terjadinya suatu kejadian (event). Pendekatan ini digunakan ketika variabel respon bersifat dikotomik atau hanya memiliki dua kemungkinan hasil.
Beberapa contoh penggunaan regresi logistik biner antara lain:
Karena variabel respon bersifat kategorik, penggunaan regresi linear tidak sesuai karena dapat menghasilkan nilai prediksi di luar rentang probabilitas. Oleh karena itu digunakan fungsi logistik yang menjamin nilai probabilitas selalu berada pada interval:
\[0 \le P(Y=1) \le 1\]
Dalam kerangka Generalized Linear Model (GLM), regresi logistik biner menggunakan:
\[\eta_i = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]
dengan:
\[\eta_i = \log \left( \frac{\pi_i} {1-\pi_i} \right)\]
(McCullagh & Nelder, 1989).
Variabel Respon Biner
Misalkan variabel respon dinyatakan sebagai:
\[Y= \begin{cases} 1, & \text{jika kejadian terjadi} \\ 0, & \text{jika kejadian tidak terjadi} \end{cases}\]
Peluang terjadinya kejadian dinyatakan sebagai:
\[P(Y=1)=\pi(x)\]
sedangkan peluang tidak terjadinya kejadian adalah:
\[P(Y=0)=1-\pi(x)\]
Karena hanya terdapat dua kemungkinan hasil, maka jumlah kedua probabilitas tersebut harus memenuhi:
\[P(Y=1)+P(Y=0)=1\]
Distribusi Bernoulli
Untuk satu observasi, variabel respon mengikuti distribusi Bernoulli dengan fungsi probabilitas:
\[f(y) = \pi(x)^y [1-\pi(x)]^{1-y}\]
untuk:
\[y=0,1\]
dengan:
| Simbol | Keterangan |
|---|---|
| \(y\) | Nilai observasi |
| \(\pi(x)\) | Probabilitas kejadian |
| \(1-\pi(x)\) | Probabilitas tidak terjadi kejadian |
Distribusi Bernoulli merupakan bentuk khusus dari distribusi Binomial ketika jumlah percobaan sama dengan satu.
Odds
Selain probabilitas, regresi logistik menggunakan konsep odds.
Odds didefinisikan sebagai:
\[Odds = \frac{\pi(x)} {1-\pi(x)}\]
Odds menunjukkan perbandingan antara peluang terjadinya suatu kejadian terhadap peluang tidak terjadinya kejadian.
Sebagai contoh, apabila:
\[\pi(x)=0.80\]
maka:
\[Odds= \frac{0.80}{0.20} = 4\]
Artinya peluang terjadinya kejadian empat kali lebih besar dibandingkan peluang tidak terjadinya kejadian.
Fungsi Logistik
Model regresi logistik biner dinyatakan sebagai:
\[\pi(x) = \frac{ \exp ( \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p ) } { 1+ \exp ( \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p ) }\]
Persamaan tersebut dikenal sebagai fungsi logistik (logistic function).
Fungsi logistik menghasilkan kurva berbentuk huruf S (sigmoid curve) yang memungkinkan probabilitas berubah secara nonlinier terhadap perubahan variabel prediktor.
Keunggulan fungsi logistik adalah mampu menghasilkan nilai probabilitas yang selalu berada pada rentang:
\[0 \le \pi(x) \le 1\]
Transformasi Logit
Karena hubungan antara probabilitas dan variabel prediktor bersifat nonlinier, dilakukan transformasi menggunakan fungsi logit sehingga diperoleh hubungan linear.
Transformasi logit dinyatakan sebagai:
\[\log \left( \frac{\pi(x)} {1-\pi(x)} \right) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]
Persamaan tersebut disebut sebagai model logit.
Model logit menunjukkan bahwa logaritma odds kejadian merupakan fungsi linear dari variabel prediktor.
Interpretasi Koefisien
Koefisien regresi logistik menunjukkan perubahan log-odds akibat peningkatan satu satuan variabel prediktor.
Jika:
\[\beta_j>0\]
maka peluang kejadian cenderung meningkat.
Sebaliknya jika:
\[\beta_j<0\]
maka peluang kejadian cenderung menurun.
Karena interpretasi log-odds relatif sulit dipahami, maka koefisien umumnya ditransformasikan menjadi Odds Ratio.
Odds Ratio (OR)
Interpretasi parameter regresi logistik dilakukan menggunakan Odds Ratio (OR):
\[OR=e^{\beta_j}\]
Odds Ratio menunjukkan perubahan odds terjadinya suatu kejadian akibat peningkatan satu satuan variabel prediktor dengan asumsi variabel lain tetap (ceteris paribus).
Interpretasi:
Sebagai contoh:
\[OR=1.50\]
menunjukkan bahwa kenaikan satu satuan variabel prediktor meningkatkan odds kejadian sebesar:
\[(1.50-1)\times100\% = 50\%\]
Sebaliknya:
\[OR=0.80\]
menunjukkan bahwa kenaikan satu satuan variabel prediktor menurunkan odds kejadian sebesar:
\[(1-0.80)\times100\% = 20\%\]
Estimasi Parameter
Parameter regresi logistik diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).
Fungsi likelihood dituliskan sebagai:
\[L(\beta) = \prod_{i=1}^{n} \pi_i^{y_i} (1-\pi_i)^{1-y_i}\]
Kemudian dilakukan optimasi terhadap fungsi log-likelihood:
\[\ell(\beta) = \sum_{i=1}^{n} \left[ y_i\ln(\pi_i) + (1-y_i)\ln(1-\pi_i) \right]\]
Estimasi parameter diperoleh menggunakan prosedur iteratif seperti Newton-Raphson atau Fisher Scoring.
Pengujian Parameter
Signifikansi parameter dapat diuji menggunakan statistik Wald:
\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]
Hipotesis yang diuji adalah:
\[H_0:\beta_j=0\]
\[H_1:\beta_j\neq0\]
Kriteria keputusan:
\[p\text{-value}<0.05\]
menunjukkan bahwa variabel prediktor berpengaruh signifikan terhadap probabilitas kejadian.
Kesesuaian Model (Goodness of Fit)
Kesesuaian model regresi logistik dapat dievaluasi menggunakan Uji Hosmer-Lemeshow.
Hipotesis yang diuji adalah:
\[H_0: \text{Model sesuai dengan data}\]
\[H_1: \text{Model tidak sesuai dengan data}\]
Apabila:
\[p\text{-value}>0.05\]
maka model dianggap memiliki kecocokan yang baik terhadap data.
Selain itu dapat digunakan ukuran lain seperti:
Evaluasi Kemampuan Klasifikasi
Kemampuan prediksi model dapat dievaluasi menggunakan confusion matrix.
Ukuran yang umum digunakan meliputi:
Accuracy
\[Accuracy = \frac{TP+TN} {TP+TN+FP+FN}\]
Sensitivity
\[Sensitivity = \frac{TP} {TP+FN}\]
Specificity
\[Specificity = \frac{TN} {TN+FP}\]
dengan:
Semakin tinggi nilai accuracy, sensitivity, dan specificity menunjukkan kemampuan klasifikasi model yang semakin baik.
Beberapa asumsi penting regresi logistik biner adalah:
Variabel respon yang digunakan pada penelitian ini adalah:
\[Y=\text{Outcome}\]
Variabel Outcome menunjukkan status diabetes seseorang, dengan kategori:
\[Y= \begin{cases} 1, & \text{menderita diabetes} \\ 0, & \text{tidak menderita diabetes} \end{cases}\]
Karena variabel respon hanya terdiri atas dua kategori, maka metode yang sesuai digunakan adalah regresi logistik biner.
Variabel prediktor yang digunakan dalam penelitian ini adalah:
| Variabel | Keterangan |
|---|---|
| Pregnancies | Jumlah kehamilan |
| Glucose | Konsentrasi glukosa plasma |
| BloodPressure | Tekanan darah diastolik |
| SkinThickness | Ketebalan lipatan kulit triseps |
| Insulin | Kadar insulin serum |
| BMI | Body Mass Index |
| DiabetesPedigreeFunction | Riwayat diabetes dalam keluarga |
| Age | Umur responden |
Variabel-variabel tersebut dipilih karena secara medis diketahui berkaitan dengan risiko terjadinya diabetes mellitus.
Model regresi logistik biner yang digunakan dalam penelitian ini adalah:
\[\text{Outcome} \sim \text{Pregnancies} + \text{Glucose} + \text{BloodPressure} + \text{SkinThickness} + \text{Insulin} + \text{BMI} + \text{DiabetesPedigreeFunction} + \text{Age}\]
atau secara matematis dapat dituliskan sebagai:
\[\log \left( \frac{\pi(x)} {1-\pi(x)} \right) = \beta_0 + \beta_1(\text{Pregnancies}) + \beta_2(\text{Glucose}) + \beta_3(\text{BloodPressure}) + \beta_4(\text{SkinThickness}) + \beta_5(\text{Insulin}) + \beta_6(\text{BMI}) + \beta_7(\text{DiabetesPedigreeFunction}) + \beta_8(\text{Age})\]
Model tersebut digunakan untuk mengidentifikasi faktor-faktor yang memengaruhi probabilitas seseorang menderita diabetes berdasarkan karakteristik fisiologis dan riwayat kesehatan yang dimiliki.
diabetes <- read.csv(
"C:/Users/user/Downloads/Data LogBiner_Diabetes.csv"
)
glimpse(diabetes)
## Rows: 768
## Columns: 9
## $ Pregnancies <int> 6, 1, 8, 1, 0, 5, 3, 10, 2, 8, 4, 10, 10, 1, …
## $ Glucose <int> 148, 85, 183, 89, 137, 116, 78, 115, 197, 125…
## $ BloodPressure <int> 72, 66, 64, 66, 40, 74, 50, 0, 70, 96, 92, 74…
## $ SkinThickness <int> 35, 29, 0, 23, 35, 0, 32, 0, 45, 0, 0, 0, 0, …
## $ Insulin <int> 0, 0, 0, 94, 168, 0, 88, 0, 543, 0, 0, 0, 0, …
## $ BMI <dbl> 33.6, 26.6, 23.3, 28.1, 43.1, 25.6, 31.0, 35.…
## $ DiabetesPedigreeFunction <dbl> 0.627, 0.351, 0.672, 0.167, 2.288, 0.201, 0.2…
## $ Age <int> 50, 31, 32, 21, 33, 30, 26, 29, 53, 54, 30, 3…
## $ Outcome <int> 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, …
summary(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness
## Min. : 0.000 Min. : 0.0 Min. : 0.00 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 62.00 1st Qu.: 0.00
## Median : 3.000 Median :117.0 Median : 72.00 Median :23.00
## Mean : 3.845 Mean :120.9 Mean : 69.11 Mean :20.54
## 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 80.00 3rd Qu.:32.00
## Max. :17.000 Max. :199.0 Max. :122.00 Max. :99.00
## Insulin BMI DiabetesPedigreeFunction Age
## Min. : 0.0 Min. : 0.00 Min. :0.0780 Min. :21.00
## 1st Qu.: 0.0 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
## Median : 30.5 Median :32.00 Median :0.3725 Median :29.00
## Mean : 79.8 Mean :31.99 Mean :0.4719 Mean :33.24
## 3rd Qu.:127.2 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
## Max. :846.0 Max. :67.10 Max. :2.4200 Max. :81.00
## Outcome
## Min. :0.000
## 1st Qu.:0.000
## Median :0.000
## Mean :0.349
## 3rd Qu.:1.000
## Max. :1.000
ggplot(diabetes,aes(factor(Outcome)))+
geom_bar(fill="steelblue")+
labs(title="Distribusi Outcome")
model_bin <- glm(
Outcome ~ Pregnancies + Glucose + BloodPressure +
SkinThickness + Insulin + BMI +
DiabetesPedigreeFunction + Age,
family=binomial(link="logit"),
data=diabetes)
summary(model_bin)
##
## Call:
## glm(formula = Outcome ~ Pregnancies + Glucose + BloodPressure +
## SkinThickness + Insulin + BMI + DiabetesPedigreeFunction +
## Age, family = binomial(link = "logit"), data = diabetes)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -8.4046964 0.7166359 -11.728 < 2e-16 ***
## Pregnancies 0.1231823 0.0320776 3.840 0.000123 ***
## Glucose 0.0351637 0.0037087 9.481 < 2e-16 ***
## BloodPressure -0.0132955 0.0052336 -2.540 0.011072 *
## SkinThickness 0.0006190 0.0068994 0.090 0.928515
## Insulin -0.0011917 0.0009012 -1.322 0.186065
## BMI 0.0897010 0.0150876 5.945 2.76e-09 ***
## DiabetesPedigreeFunction 0.9451797 0.2991475 3.160 0.001580 **
## Age 0.0148690 0.0093348 1.593 0.111192
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 993.48 on 767 degrees of freedom
## Residual deviance: 723.45 on 759 degrees of freedom
## AIC: 741.45
##
## Number of Fisher Scoring iterations: 5
exp(coef(model_bin))
## (Intercept) Pregnancies Glucose
## 0.0002238137 1.1310905981 1.0357892688
## BloodPressure SkinThickness Insulin
## 0.9867924485 1.0006191560 0.9988090108
## BMI DiabetesPedigreeFunction Age
## 1.0938471417 2.5732758592 1.0149800983
hoslem.test(diabetes$Outcome,fitted(model_bin))
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: diabetes$Outcome, fitted(model_bin)
## X-squared = 9.5399, df = 8, p-value = 0.2988
pR2(model_bin)
## fitting null model for pseudo-r2
## llh llhNull G2 McFadden r2ML r2CU
## -361.7226889 -496.7419551 270.0385324 0.2718097 0.2964474 0.4084884
pred <- ifelse(predict(model_bin,type="response")>0.5,1,0)
confusionMatrix(factor(pred),factor(diabetes$Outcome))
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 445 112
## 1 55 156
##
## Accuracy : 0.7826
## 95% CI : (0.7517, 0.8112)
## No Information Rate : 0.651
## P-Value [Acc > NIR] : 1.373e-15
##
## Kappa : 0.4966
##
## Mcnemar's Test P-Value : 1.468e-05
##
## Sensitivity : 0.8900
## Specificity : 0.5821
## Pos Pred Value : 0.7989
## Neg Pred Value : 0.7393
## Prevalence : 0.6510
## Detection Rate : 0.5794
## Detection Prevalence : 0.7253
## Balanced Accuracy : 0.7360
##
## 'Positive' Class : 0
##
Berdasarkan hasil estimasi regresi logistik biner diperoleh model sebagai berikut:
\[\ln\left(\frac{\pi(x)}{1-\pi(x)}\right) = -8.4047 +0.1232(\text{Pregnancies}) +0.0352(\text{Glucose}) -0.0133(\text{BloodPressure}) +0.0006(\text{SkinThickness}) -0.0012(\text{Insulin}) +0.0897(\text{BMI}) +0.9452(\text{DiabetesPedigreeFunction}) +0.0149(\text{Age})\]
dengan:
\[\pi(x)=P(Y=1)\]
menyatakan probabilitas seseorang mengalami diabetes.
Model menunjukkan hubungan antara faktor-faktor risiko kesehatan dengan peluang terjadinya diabetes mellitus.
Berdasarkan hasil pengujian diperoleh:
\[\chi^2 = 9.5399\]
dengan
\[p\text{-value}=0.2988\]
Karena nilai p-value lebih besar dari 0,05 maka gagal menolak hipotesis nol.
Hal ini menunjukkan bahwa model yang dibentuk telah sesuai dengan data sehingga tidak terdapat perbedaan yang signifikan antara nilai observasi dan nilai prediksi model.
Berdasarkan hasil perhitungan diperoleh:
| Ukuran | Nilai |
|---|---|
| McFadden R² | 0.2718 |
| Cox & Snell R² | 0.2964 |
| Nagelkerke R² | 0.4085 |
Nilai Nagelkerke R² sebesar 0,4085 menunjukkan bahwa sekitar 40,85% variasi status diabetes dapat dijelaskan oleh variabel-variabel prediktor dalam model.
Berdasarkan confusion matrix diperoleh:
| Ukuran | Nilai |
|---|---|
| Accuracy | 78,26% |
| Sensitivity | 89,00% |
| Specificity | 58,21% |
| Kappa | 0,4966 |
Nilai akurasi sebesar 78,26% menunjukkan bahwa model memiliki kemampuan klasifikasi yang cukup baik dalam membedakan individu yang mengalami diabetes dan yang tidak mengalami diabetes.
Berdasarkan hasil uji Wald pada taraf signifikansi 5%, diperoleh hasil sebagai berikut:
| Variabel | p-value | Keputusan |
|---|---|---|
| Pregnancies | 0.000123 | Signifikan |
| Glucose | <0.001 | Signifikan |
| BloodPressure | 0.0111 | Signifikan |
| SkinThickness | 0.9285 | Tidak Signifikan |
| Insulin | 0.1861 | Tidak Signifikan |
| BMI | <0.001 | Signifikan |
| DiabetesPedigreeFunction | 0.0016 | Signifikan |
| Age | 0.1112 | Tidak Signifikan |
Variabel yang berpengaruh signifikan terhadap status diabetes adalah:
Sedangkan variabel SkinThickness, Insulin, dan Age tidak berpengaruh signifikan pada taraf signifikansi 5%.
Interpretasi parameter dilakukan menggunakan Odds Ratio:
\[OR=e^{\beta_j}\]
Koefisien:
\[\beta=0.1232\]
Odds Ratio:
\[OR=1.131\]
Interpretasi:
Setiap peningkatan satu kali kehamilan meningkatkan peluang seseorang mengalami diabetes sebesar:
\[(1.131-1)\times100\%=13.1\%\]
dengan asumsi variabel lain tetap.
Koefisien:
\[\beta=0.0352\]
Odds Ratio:
\[OR=1.036\]
Interpretasi:
Setiap peningkatan satu unit kadar glukosa darah meningkatkan peluang seseorang mengalami diabetes sebesar 3,6%.
Variabel ini merupakan salah satu faktor risiko utama diabetes mellitus.
Koefisien:
\[\beta=-0.0133\]
Odds Ratio:
\[OR=0.987\]
Interpretasi:
Setiap peningkatan satu unit tekanan darah menyebabkan peluang seseorang mengalami diabetes menurun sebesar sekitar 1,3%.
Meskipun signifikan secara statistik, pengaruh variabel ini relatif kecil dibandingkan variabel lainnya.
Koefisien:
\[\beta=0.0897\]
Odds Ratio:
\[OR=1.094\]
Interpretasi:
Setiap peningkatan satu unit BMI meningkatkan peluang seseorang mengalami diabetes sebesar:
\[(1.094-1)\times100\%=9.4\%\]
Hasil ini menunjukkan bahwa individu dengan indeks massa tubuh yang lebih tinggi memiliki risiko diabetes yang lebih besar.
Koefisien:
\[\beta=0.9452\]
Odds Ratio:
\[OR=2.573\]
Interpretasi:
Setiap peningkatan satu unit Diabetes Pedigree Function meningkatkan peluang seseorang mengalami diabetes sebesar:
\[2.573\]
kali dibandingkan sebelumnya.
Variabel ini memiliki nilai Odds Ratio terbesar di antara seluruh variabel signifikan sehingga dapat dianggap sebagai faktor risiko paling dominan dalam model.
Hasil ini menunjukkan bahwa faktor keturunan dan riwayat keluarga memiliki kontribusi yang sangat kuat terhadap kejadian diabetes.
Variabel SkinThickness memiliki p-value sebesar 0,9285 sehingga tidak berpengaruh signifikan terhadap status diabetes.
Variabel Insulin memiliki p-value sebesar 0,1861 sehingga belum terbukti berpengaruh signifikan terhadap status diabetes pada model ini.
Variabel Age memiliki p-value sebesar 0,1112 sehingga tidak berpengaruh signifikan pada taraf signifikansi 5%.
Walaupun usia sering dikaitkan dengan peningkatan risiko diabetes, pada data ini pengaruhnya tidak cukup kuat setelah mempertimbangkan variabel lain dalam model.
Berdasarkan nilai Odds Ratio, faktor-faktor yang paling meningkatkan risiko diabetes adalah:
| Variabel | Odds Ratio |
|---|---|
| DiabetesPedigreeFunction | 2.573 |
| Pregnancies | 1.131 |
| BMI | 1.094 |
| Glucose | 1.036 |
Di antara seluruh variabel, DiabetesPedigreeFunction merupakan faktor yang paling dominan dalam meningkatkan risiko diabetes.
Berdasarkan hasil analisis regresi logistik biner pada data diabetes dapat disimpulkan bahwa model yang dibentuk telah memenuhi kriteria kecocokan model berdasarkan uji Hosmer-Lemeshow dengan nilai p-value sebesar 0,2988. Selain itu, model memiliki kemampuan klasifikasi yang cukup baik dengan tingkat akurasi sebesar 78,26%.
Variabel yang berpengaruh signifikan terhadap status diabetes adalah:
Sedangkan variabel yang tidak berpengaruh signifikan adalah:
Berdasarkan nilai Odds Ratio, variabel DiabetesPedigreeFunction merupakan faktor yang paling dominan dengan nilai OR sebesar 2,573. Hasil ini menunjukkan bahwa faktor keturunan dan riwayat keluarga memiliki kontribusi yang sangat besar terhadap kemungkinan seseorang mengalami diabetes mellitus.
Selain itu, variabel Glucose dan BMI juga terbukti meningkatkan risiko diabetes secara signifikan. Individu dengan kadar glukosa darah yang lebih tinggi serta indeks massa tubuh yang lebih besar memiliki peluang lebih tinggi untuk mengalami diabetes.
Secara keseluruhan, hasil penelitian menunjukkan bahwa faktor genetik, kondisi metabolik, dan karakteristik reproduksi merupakan determinan utama kejadian diabetes pada data yang dianalisis. Oleh karena itu, upaya pencegahan diabetes perlu difokuskan pada pengendalian kadar glukosa darah, menjaga berat badan ideal, serta peningkatan kesadaran individu yang memiliki riwayat keluarga penderita diabetes.
Regresi logistik multinomial merupakan pengembangan dari regresi logistik biner yang digunakan ketika variabel respon memiliki lebih dari dua kategori dan kategori tersebut bersifat nominal atau tidak memiliki urutan alami (Agresti, 2018). Model ini digunakan untuk menjelaskan hubungan antara sejumlah variabel prediktor dengan probabilitas pemilihan suatu kategori respon.
Regresi logistik multinomial termasuk ke dalam keluarga Generalized Linear Model (GLM) dengan fungsi link berupa generalized logit. Model ini banyak digunakan dalam penelitian sosial, ekonomi, pemasaran, transportasi, kesehatan, dan ilmu perilaku untuk menganalisis keputusan individu dalam memilih salah satu alternatif yang tersedia (Hosmer et al., 2013).
Misalkan variabel respon memiliki \(K\) kategori, yaitu:
\[Y \in \{1,2,\ldots,K\}\]
dengan probabilitas:
\[P(Y=j)=\pi_j\]
untuk:
\[j=1,2,\ldots,K\]
dan memenuhi:
\[\sum_{j=1}^{K}\pi_j=1\]
serta
\[0 \le \pi_j \le 1\]
Karena variabel respon memiliki lebih dari dua kategori, maka distribusi yang digunakan adalah distribusi multinomial dengan fungsi probabilitas:
\[f(y)= \frac{n!} {y_1!y_2!\cdots y_K!} \pi_1^{y_1} \pi_2^{y_2} \cdots \pi_K^{y_K}\]
dengan:
| Simbol | Keterangan |
|---|---|
| \(y_j\) | Frekuensi kategori ke-\(j\) |
| \(\pi_j\) | Probabilitas kategori ke-\(j\) |
| \(K\) | Jumlah kategori respon |
| \(n\) | Jumlah pengamatan |
Model Generalized Logit
Pada regresi logistik multinomial, salah satu kategori dipilih sebagai kategori referensi (baseline category). Misalkan kategori ke-\(K\) digunakan sebagai referensi.
Hubungan antara probabilitas kategori ke-\(j\) terhadap kategori referensi dinyatakan sebagai:
\[\log\left( \frac{\pi_j} {\pi_K} \right) = \beta_{j0} + \beta_{j1}X_1 + \beta_{j2}X_2 + \cdots + \beta_{jp}X_p\]
untuk:
\[j=1,2,\ldots,K-1\]
Persamaan tersebut disebut sebagai model generalized logit.
Jika terdapat empat kategori moda transportasi, maka akan terbentuk tiga persamaan logit yang membandingkan masing-masing kategori terhadap kategori referensi.
Probabilitas Pemilihan Kategori
Dari model generalized logit diperoleh probabilitas pemilihan kategori ke-\(j\) sebagai:
\[P(Y=j) = \frac{ \exp ( \beta_{j0} + \beta_{j1}X_1 + \cdots + \beta_{jp}X_p ) } { 1+ \sum_{h=1}^{K-1} \exp ( \beta_{h0} + \beta_{h1}X_1 + \cdots + \beta_{hp}X_p ) }\]
untuk:
\[j=1,2,\ldots,K-1\]
sedangkan probabilitas kategori referensi adalah:
\[P(Y=K) = \frac{1} { 1+ \sum_{h=1}^{K-1} \exp ( \beta_{h0} + \beta_{h1}X_1 + \cdots + \beta_{hp}X_p ) }\]
Dengan demikian seluruh probabilitas kategori akan berjumlah satu.
Estimasi Parameter
Parameter regresi logistik multinomial umumnya diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).
Fungsi likelihood dituliskan sebagai:
\[L(\beta) = \prod_{i=1}^{n} \prod_{j=1}^{K} \pi_{ij}^{y_{ij}}\]
Kemudian dilakukan optimasi terhadap log-likelihood:
\[\ell(\beta) = \sum_{i=1}^{n} \sum_{j=1}^{K} y_{ij} \log(\pi_{ij})\]
Estimasi parameter diperoleh melalui prosedur iteratif seperti algoritma Newton-Raphson atau Fisher Scoring (McCullagh & Nelder, 1989).
Pengujian Parameter
Signifikansi parameter dapat diuji menggunakan Uji Wald:
\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]
Hipotesis yang diuji adalah:
\[H_0:\beta_j=0\]
\[H_1:\beta_j\neq0\]
Jika nilai p-value lebih kecil dari taraf signifikansi yang digunakan (misalnya 0,05), maka variabel tersebut berpengaruh signifikan terhadap pemilihan kategori respon.
Relative Risk Ratio (RRR)
Interpretasi koefisien pada regresi logistik multinomial umumnya dilakukan menggunakan Relative Risk Ratio (RRR), yaitu:
\[RRR=e^{\beta}\]
Interpretasi RRR adalah:
Sebagai contoh:
\[RRR=1.50\]
berarti kenaikan satu satuan variabel prediktor meningkatkan peluang memilih kategori tertentu sebesar 50% dibanding kategori referensi.
Sebaliknya:
\[RRR=0.70\]
berarti kenaikan satu satuan variabel prediktor menurunkan peluang memilih kategori tersebut sebesar 30%.
Beberapa asumsi penting dalam regresi logistik multinomial adalah:
Asumsi IIA merupakan karakteristik penting yang membedakan regresi logistik multinomial dengan model klasifikasi lainnya (Long & Freese, 2014).
Variabel respon yang digunakan adalah:
\[Y = \text{choice}\]
Variabel ini menunjukkan pilihan moda transportasi yang dipilih responden.
Karena terdiri atas empat kategori moda transportasi dan tidak memiliki urutan alami, maka metode yang sesuai digunakan adalah regresi logistik multinomial.
Variabel prediktor yang digunakan dalam penelitian ini adalah:
| Variabel | Keterangan |
|---|---|
| ttme | Travel Time |
| invc | Travel Cost |
| invt | In-Vehicle Time |
| gc | Generalized Cost |
| hinc | Household Income |
| psize | Household Size |
Model regresi logistik multinomial yang dibentuk adalah:
\[\text{choice} \sim ttme + invc + invt + gc + hinc + psize\]
Model tersebut digunakan untuk menjelaskan pengaruh karakteristik perjalanan dan karakteristik sosial ekonomi rumah tangga terhadap keputusan pemilihan moda transportasi.
modechoice <- read.csv(
"C:/Users/user/Downloads/Data LogMultinom_ModeChoice.csv"
)
modechoice$choice <- as.factor(modechoice$choice)
ggplot(modechoice,aes(choice))+
geom_bar(fill="darkgreen")
model_multi <- multinom(
choice ~ ttme + invc + invt + gc + hinc + psize,
data=modechoice)
## # weights: 32 (21 variable)
## initial value 291.121816
## iter 10 value 121.451672
## iter 20 value 90.861112
## iter 30 value 53.689957
## iter 40 value 51.776959
## final value 51.746503
## converged
summary(model_multi)
## Call:
## multinom(formula = choice ~ ttme + invc + invt + gc + hinc +
## psize, data = modechoice)
##
## Coefficients:
## (Intercept) ttme invc invt gc hinc psize
## 2 331.9804 -2.751304 -23.24546 0.4002512 15.41325 -1.5942924 -143.02256
## 3 330.8940 -2.764534 -23.25743 0.4042948 15.39929 -1.5642242 -143.36490
## 4 258.1807 -40.972923 -24.26198 0.4457966 15.77604 0.7497141 -79.37624
##
## Std. Errors:
## (Intercept) ttme invc invt gc hinc
## 2 0.5027823650 8.057236e-03 0.01797987 0.03022718 0.01521874 0.007215992
## 3 0.5027828350 8.057080e-03 0.01799679 0.03022231 0.01520774 0.007210673
## 4 0.0002647669 8.430101e-06 0.00470924 0.06034104 0.01115255 0.001091449
## psize
## 2 0.2605886613
## 3 0.2605891513
## 4 0.0002647669
##
## Residual Deviance: 103.493
## AIC: 145.493
z <- summary(model_multi)$coefficients /
summary(model_multi)$standard.errors
p <- (1-pnorm(abs(z)))*2
p
## (Intercept) ttme invc invt gc hinc psize
## 2 0 0 0 0.00000e+00 0 0 0
## 3 0 0 0 0.00000e+00 0 0 0
## 4 0 0 0 1.49214e-13 0 0 0
exp(coef(model_multi))
## (Intercept) ttme invc invt gc hinc
## 2 1.504091e+144 6.384456e-02 8.028348e-11 1.492200 4941840 0.2030522
## 3 5.074898e+143 6.300548e-02 7.932787e-11 1.498246 4873351 0.2092503
## 4 1.338046e+112 1.605778e-18 2.905078e-11 1.561734 7103107 2.1163949
## psize
## 2 7.692914e-63
## 3 5.462778e-63
## 4 3.367743e-35
pred_multi <- predict(model_multi)
confusionMatrix(pred_multi,modechoice$choice)
## Confusion Matrix and Statistics
##
## Reference
## Prediction 1 2 3 4
## 1 58 0 0 0
## 2 0 55 20 0
## 3 0 8 10 0
## 4 0 0 0 59
##
## Overall Statistics
##
## Accuracy : 0.8667
## 95% CI : (0.8131, 0.9095)
## No Information Rate : 0.3
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.8162
##
## Mcnemar's Test P-Value : NA
##
## Statistics by Class:
##
## Class: 1 Class: 2 Class: 3 Class: 4
## Sensitivity 1.0000 0.8730 0.33333 1.000
## Specificity 1.0000 0.8639 0.95556 1.000
## Pos Pred Value 1.0000 0.7333 0.55556 1.000
## Neg Pred Value 1.0000 0.9407 0.89583 1.000
## Prevalence 0.2762 0.3000 0.14286 0.281
## Detection Rate 0.2762 0.2619 0.04762 0.281
## Detection Prevalence 0.2762 0.3571 0.08571 0.281
## Balanced Accuracy 1.0000 0.8685 0.64444 1.000
Pada analisis ini variabel respon adalah choice yang terdiri atas empat kategori moda transportasi. Regresi logistik multinomial digunakan karena kategori respon bersifat nominal dan tidak memiliki urutan tertentu.
Model multinomial menggunakan salah satu kategori sebagai kategori referensi (baseline category). Koefisien yang dihasilkan menunjukkan perubahan log-odds suatu kategori moda terhadap kategori referensi akibat perubahan variabel prediktor.
Secara umum model multinomial dapat dituliskan sebagai:
\[\ln\left( \frac{P(Y=j)} {P(Y=ref)} \right) = \beta_{0j} +\beta_{1j}X_1 +\beta_{2j}X_2 +\cdots +\beta_{pj}X_p\]
dengan:
Berdasarkan hasil estimasi diperoleh bahwa seluruh variabel prediktor memiliki nilai p-value kurang dari 0,05 sehingga berpengaruh signifikan terhadap pemilihan moda transportasi.
Berdasarkan confusion matrix diperoleh:
| Ukuran | Nilai |
|---|---|
| Accuracy | 86,67% |
| Kappa | 0,8162 |
Nilai akurasi sebesar 86,67% menunjukkan bahwa model memiliki kemampuan klasifikasi yang sangat baik dalam memprediksi pilihan moda transportasi.
Nilai Kappa sebesar 0,8162 menunjukkan tingkat kesesuaian yang sangat kuat antara hasil prediksi model dan data aktual.
Selain itu diperoleh:
\[AIC = 145.493\]
dan
\[Residual\ Deviance = 103.493\]
Nilai residual deviance yang relatif kecil menunjukkan bahwa model mampu menjelaskan variasi data dengan baik.
Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel prediktor memiliki nilai p-value kurang dari 0,05.
Variabel yang berpengaruh signifikan terhadap pemilihan moda transportasi adalah:
Dengan demikian seluruh variabel dalam model memberikan kontribusi dalam menjelaskan keputusan pemilihan moda transportasi.
Interpretasi dilakukan menggunakan Relative Risk Ratio (RRR):
\[RRR=e^{\beta_j}\]
Nilai RRR menunjukkan perubahan peluang relatif suatu kategori moda dibandingkan kategori referensi akibat kenaikan satu satuan variabel prediktor.
Nilai RRR untuk variabel ttme adalah:
| Kategori | RRR |
|---|---|
| 2 | 0.0638 |
| 3 | 0.0630 |
| 4 | 0.0000 |
Seluruh nilai RRR lebih kecil dari satu.
Interpretasi:
Peningkatan waktu perjalanan menyebabkan peluang pemilihan moda kategori 2, 3, maupun 4 relatif menurun dibanding kategori referensi.
Hal ini menunjukkan bahwa responden cenderung menghindari moda transportasi yang membutuhkan waktu perjalanan lebih lama.
Variabel waktu perjalanan merupakan salah satu faktor yang sangat menentukan dalam keputusan pemilihan moda.
Nilai RRR:
| Kategori | RRR |
|---|---|
| 2 | \(8.03\times10^{-11}\) |
| 3 | \(7.93\times10^{-11}\) |
| 4 | \(2.91\times10^{-11}\) |
Interpretasi:
Seluruh nilai RRR sangat kecil dan jauh di bawah satu.
Peningkatan biaya perjalanan menyebabkan probabilitas pemilihan moda tersebut menurun secara drastis dibanding kategori referensi.
Hasil ini menunjukkan bahwa biaya perjalanan merupakan faktor ekonomi yang sangat penting dalam pengambilan keputusan transportasi.
Nilai RRR:
| Kategori | RRR |
|---|---|
| 2 | 1.492 |
| 3 | 1.498 |
| 4 | 1.562 |
Interpretasi:
Peningkatan waktu selama berada di dalam kendaraan meningkatkan peluang pemilihan moda tertentu dibanding kategori referensi.
Hal ini menunjukkan bahwa karakteristik perjalanan tidak hanya dipengaruhi oleh total waktu perjalanan tetapi juga oleh pengalaman selama perjalanan berlangsung.
Nilai RRR:
| Kategori | RRR |
|---|---|
| 2 | 4.94 juta |
| 3 | 4.87 juta |
| 4 | 7.10 juta |
Interpretasi:
Variabel gc memiliki nilai Relative Risk Ratio terbesar dalam model.
Perubahan generalized cost memberikan perubahan peluang yang sangat besar terhadap keputusan pemilihan moda.
Variabel ini merupakan salah satu faktor paling dominan dalam model karena mencerminkan kombinasi biaya dan utilitas perjalanan yang dirasakan pengguna.
Nilai RRR:
| Kategori | RRR |
|---|---|
| 2 | 0.203 |
| 3 | 0.209 |
| 4 | 2.116 |
Interpretasi:
Untuk kategori 2 dan 3 diperoleh:
\[RRR<1\]
yang menunjukkan bahwa peningkatan pendapatan rumah tangga menurunkan peluang memilih kategori tersebut dibanding kategori referensi.
Sebaliknya untuk kategori 4 diperoleh:
\[RRR=2.116\]
yang menunjukkan bahwa peningkatan pendapatan rumah tangga meningkatkan peluang memilih moda kategori 4 sebesar 2,116 kali dibanding kategori referensi.
Temuan ini menunjukkan bahwa kelompok berpendapatan tinggi cenderung memilih moda transportasi yang lebih nyaman atau memiliki kualitas layanan yang lebih baik.
Nilai RRR:
| Kategori | RRR |
|---|---|
| 2 | \(7.69\times10^{-63}\) |
| 3 | \(5.46\times10^{-63}\) |
| 4 | \(3.37\times10^{-35}\) |
Interpretasi:
Seluruh nilai RRR jauh lebih kecil dari satu.
Semakin besar jumlah anggota rumah tangga maka kecenderungan memilih kategori moda tersebut semakin menurun dibanding kategori referensi.
Hasil ini mengindikasikan bahwa ukuran rumah tangga turut memengaruhi pola pemilihan moda transportasi.
Berdasarkan besarnya Relative Risk Ratio dan konsistensi signifikansi parameter, faktor-faktor yang paling dominan memengaruhi pemilihan moda transportasi adalah:
| Variabel | Karakteristik Pengaruh |
|---|---|
| gc | Pengaruh paling besar |
| invc | Pengaruh ekonomi yang sangat kuat |
| ttme | Faktor waktu perjalanan utama |
| hinc | Membedakan preferensi berdasarkan pendapatan |
Secara umum, biaya perjalanan dan waktu perjalanan merupakan determinan utama dalam keputusan pemilihan moda transportasi.
Berdasarkan hasil analisis regresi logistik multinomial diperoleh model yang memiliki tingkat akurasi sebesar 86,67%, sehingga dapat dikatakan memiliki kemampuan prediksi yang sangat baik.
Nilai Kappa sebesar 0,8162 menunjukkan bahwa hasil klasifikasi model memiliki tingkat kesesuaian yang sangat kuat dengan data aktual.
Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel prediktor, yaitu:
berpengaruh signifikan terhadap keputusan pemilihan moda transportasi.
Variabel generalized cost (gc) merupakan faktor yang memiliki pengaruh paling dominan dalam model, diikuti oleh travel cost (invc) dan travel time (ttme). Temuan ini menunjukkan bahwa aspek biaya dan efisiensi perjalanan merupakan pertimbangan utama dalam pemilihan moda transportasi.
Selain itu, karakteristik sosial ekonomi rumah tangga yang direpresentasikan oleh household income dan household size juga terbukti memengaruhi preferensi moda yang dipilih.
Secara keseluruhan, hasil penelitian menunjukkan bahwa keputusan pemilihan moda transportasi merupakan hasil interaksi antara faktor ekonomi, waktu perjalanan, dan karakteristik rumah tangga. Oleh karena itu, kebijakan transportasi yang bertujuan meningkatkan penggunaan moda tertentu perlu mempertimbangkan ketiga aspek tersebut secara bersamaan.
Regresi logistik ordinal digunakan ketika variabel respon berbentuk kategorik dan memiliki urutan alami (ordered categories), tetapi jarak antar kategori tidak harus sama (Agresti, 2018). Model ini merupakan pengembangan dari regresi logistik biner untuk menangani variabel respon yang terdiri atas lebih dari dua kategori yang berjenjang.
Contoh variabel ordinal antara lain:
Karena kategori respon memiliki urutan, informasi urutan tersebut perlu dipertahankan dalam proses pemodelan sehingga penggunaan regresi logistik multinomial menjadi kurang efisien. Oleh karena itu digunakan regresi logistik ordinal yang memanfaatkan informasi urutan kategori respon (Hosmer et al., 2013).
Misalkan variabel respon memiliki \(J\) kategori berurutan:
\[Y \in \{1,2,3,\ldots,J\}\]
dengan probabilitas:
\[P(Y=j)=\pi_j\]
untuk:
\[j=1,2,\ldots,J\]
dan memenuhi:
\[\sum_{j=1}^{J}\pi_j=1\]
Probabilitas Kumulatif
Pada regresi logistik ordinal, yang dimodelkan bukan probabilitas kategori tunggal, melainkan probabilitas kumulatif.
Probabilitas kumulatif didefinisikan sebagai:
\[P(Y \le j) = \pi_1+\pi_2+\cdots+\pi_j\]
untuk:
\[j=1,2,\ldots,J-1\]
sedangkan probabilitas komplemennya adalah:
\[P(Y>j) = 1-P(Y\le j)\]
Model Cumulative Logit
Model yang paling umum digunakan dalam regresi logistik ordinal adalah Cumulative Logit Model atau Proportional Odds Model (McCullagh, 1980).
Model cumulative logit dinyatakan sebagai:
\[\log \left( \frac{P(Y\le j)} {P(Y>j)} \right) = \alpha_j + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]
untuk:
\[j=1,2,\ldots,J-1\]
dengan:
| Simbol | Keterangan |
|---|---|
| \(\alpha_j\) | Cutpoint atau threshold kategori ke-\(j\) |
| \(\beta_k\) | Koefisien regresi |
| \(X_k\) | Variabel prediktor |
| \(P(Y\le j)\) | Probabilitas kumulatif hingga kategori ke-\(j\) |
Model ini menghasilkan sejumlah persamaan logit kumulatif sesuai banyaknya kategori respon.
Sebagai contoh, apabila terdapat enam kategori kualitas wine, maka akan terbentuk lima persamaan logit kumulatif.
Bentuk Probabilitas Kumulatif
Dari model cumulative logit diperoleh:
\[P(Y\le j) = \frac{ \exp ( \alpha_j + \beta_1X_1 +\cdots+ \beta_pX_p ) } { 1+ \exp ( \alpha_j + \beta_1X_1 +\cdots+ \beta_pX_p ) }\]
Probabilitas masing-masing kategori kemudian diperoleh dari selisih probabilitas kumulatif yang berurutan.
Proportional Odds Model
Regresi logistik ordinal sering disebut sebagai Proportional Odds Model karena koefisien regresi:
\[\beta_1,\beta_2,\ldots,\beta_p\]
diasumsikan sama untuk seluruh kategori kumulatif.
Dengan kata lain, pengaruh setiap variabel prediktor dianggap konstan pada seluruh batas kategori respon.
Keuntungan asumsi ini adalah:
Estimasi Parameter
Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).
Fungsi likelihood dituliskan sebagai:
\[L(\beta) = \prod_{i=1}^{n} \prod_{j=1}^{J} \pi_{ij}^{y_{ij}}\]
Kemudian dilakukan optimasi terhadap fungsi log-likelihood:
\[\ell(\beta) = \sum_{i=1}^{n} \sum_{j=1}^{J} y_{ij} \log(\pi_{ij})\]
Estimasi parameter diperoleh melalui prosedur iteratif seperti Newton-Raphson atau Fisher Scoring (McCullagh & Nelder, 1989).
Pengujian Parameter
Signifikansi parameter dapat diuji menggunakan statistik Wald:
\[Z = \frac{\hat{\beta}} {SE(\hat{\beta})}\]
Hipotesis yang diuji:
\[H_0:\beta_j=0\]
\[H_1:\beta_j\neq0\]
Jika:
\[p\text{-value}<\alpha\]
maka variabel tersebut berpengaruh signifikan terhadap kategori respon.
Odds Ratio
Interpretasi koefisien regresi logistik ordinal dilakukan menggunakan Odds Ratio (OR):
\[OR=e^{\beta}\]
Interpretasi:
Sebagai contoh:
\[OR=2\]
berarti kenaikan satu satuan variabel prediktor meningkatkan peluang berada pada kategori kualitas yang lebih tinggi sebesar dua kali lipat.
Sebaliknya:
\[OR=0.50\]
berarti peluang berada pada kategori yang lebih tinggi menurun sebesar 50%.
Regresi logistik ordinal memiliki beberapa asumsi penting:
Asumsi proportional odds menyatakan bahwa hubungan antara setiap pasangan kategori respon memiliki koefisien regresi yang sama.
Pengujian asumsi ini umumnya dilakukan menggunakan:
Hipotesis yang diuji adalah:
\[H_0: \text{Asumsi proportional odds terpenuhi}\]
\[H_1: \text{Asumsi proportional odds tidak terpenuhi}\]
Apabila nilai p-value lebih besar dari 0,05 maka asumsi proportional odds dianggap terpenuhi.
Variabel respon yang digunakan adalah:
\[Y=\text{quality}\]
Variabel quality menunjukkan tingkat kualitas wine yang bersifat ordinal.
Semakin tinggi nilai quality menunjukkan kualitas wine yang semakin baik.
Variabel prediktor yang digunakan adalah:
| Variabel | Keterangan |
|---|---|
| fixed acidity | Keasaman tetap |
| volatile acidity | Keasaman volatil |
| citric acid | Asam sitrat |
| residual sugar | Gula residu |
| chlorides | Kandungan klorida |
| free sulfur dioxide | Sulfur dioksida bebas |
| total sulfur dioxide | Total sulfur dioksida |
| density | Massa jenis |
| pH | Tingkat keasaman |
| sulphates | Kandungan sulfat |
| alcohol | Kadar alkohol |
Model regresi logistik ordinal yang digunakan adalah:
\[\text{quality} \sim \text{fixed acidity} + \text{volatile acidity} + \text{citric acid} + \text{residual sugar} + \text{chlorides} + \text{free sulfur dioxide} + \text{total sulfur dioxide} + \text{density} + pH + \text{sulphates} + \text{alcohol}\]
Model ini digunakan untuk mengidentifikasi faktor-faktor kimia yang memengaruhi kualitas wine dan menentukan variabel yang berkontribusi terhadap peningkatan kategori kualitas wine.
wine <- read.csv(
"C:/Users/user/Downloads/Data LogOrdinal_WineQuality.csv"
)
wine$quality <- ordered(wine$quality)
ggplot(wine,aes(quality))+
geom_bar(fill="purple")
model_ord <- polr(
quality ~ .,
data=wine,
Hess=TRUE)
summary(model_ord)
## Call:
## polr(formula = quality ~ ., data = wine, Hess = TRUE)
##
## Coefficients:
## Value Std. Error t value
## fixed.acidity 0.10240 0.051209 2.000
## volatile.acidity -3.41794 0.400103 -8.543
## citric.acid -0.80494 0.462371 -1.741
## residual.sugar 0.07617 0.038210 1.993
## chlorides -5.17121 1.354373 -3.818
## free.sulfur.dioxide 0.01392 0.006767 2.057
## total.sulfur.dioxide -0.01119 0.002360 -4.744
## density -48.92546 0.974488 -50.206
## pH -0.98472 0.496900 -1.982
## sulphates 2.86724 0.358016 8.009
## alcohol 0.85611 0.059355 14.424
##
## Intercepts:
## Value Std. Error t value
## 3|4 -48.8787 0.9979 -48.9797
## 4|5 -46.9597 0.9959 -47.1541
## 5|6 -43.2452 0.9988 -43.2968
## 6|7 -40.3898 1.0111 -39.9454
## 7|8 -37.3837 1.0409 -35.9138
##
## Residual Deviance: 3074.928
## AIC: 3106.928
ctable <- coef(summary(model_ord))
p <- pnorm(abs(ctable[,3]),lower.tail=FALSE)*2
cbind(ctable,p)
## Value Std. Error t value p
## fixed.acidity 0.10239667 0.051208703 1.999595 4.554400e-02
## volatile.acidity -3.41794232 0.400103057 -8.542655 1.311728e-17
## citric.acid -0.80493954 0.462371339 -1.740894 8.170214e-02
## residual.sugar 0.07616957 0.038209940 1.993449 4.621229e-02
## chlorides -5.17121245 1.354373478 -3.818158 1.344516e-04
## free.sulfur.dioxide 0.01392022 0.006767187 2.057016 3.968465e-02
## total.sulfur.dioxide -0.01119452 0.002359517 -4.744413 2.091120e-06
## density -48.92545746 0.974488188 -50.206311 0.000000e+00
## pH -0.98471618 0.496900166 -1.981718 4.751077e-02
## sulphates 2.86723651 0.358015972 8.008683 1.159431e-15
## alcohol 0.85611493 0.059354809 14.423683 3.672145e-47
## 3|4 -48.87868294 0.997938359 -48.979661 0.000000e+00
## 4|5 -46.95972297 0.995878057 -47.154089 0.000000e+00
## 5|6 -43.24521409 0.998809085 -43.296777 0.000000e+00
## 6|7 -40.38977375 1.011124776 -39.945390 0.000000e+00
## 7|8 -37.38369207 1.040928296 -35.913801 1.860312e-282
exp(coef(model_ord))
## fixed.acidity volatile.acidity citric.acid
## 1.107823e+00 3.277982e-02 4.471150e-01
## residual.sugar chlorides free.sulfur.dioxide
## 1.079146e+00 5.677681e-03 1.014018e+00
## total.sulfur.dioxide density pH
## 9.888679e-01 5.648639e-22 3.735452e-01
## sulphates alcohol
## 1.758835e+01 2.353997e+00
library(brant)
brant(model_ord)
## ----------------------------------------------------
## Test for X2 df probability
## ----------------------------------------------------
## Omnibus 132.36 44 0
## fixed.acidity 11.42 4 0.02
## volatile.acidity 11.13 4 0.03
## citric.acid 6.55 4 0.16
## residual.sugar 23.55 4 0
## chlorides 5.42 4 0.25
## free.sulfur.dioxide 4.78 4 0.31
## total.sulfur.dioxide 17.02 4 0
## density 12.44 4 0.01
## pH 16.34 4 0
## sulphates 4.64 4 0.33
## alcohol 2.48 4 0.65
## ----------------------------------------------------
##
## H0: Parallel Regression Assumption holds
Regresi logistik ordinal digunakan karena variabel respon quality merupakan kategori yang memiliki urutan alami dari kualitas rendah hingga kualitas tinggi. Model yang digunakan adalah Proportional Odds Model yang menghubungkan probabilitas kumulatif kualitas wine dengan variabel-variabel karakteristik kimia wine.
Secara umum, koefisien positif menunjukkan bahwa peningkatan nilai variabel prediktor akan meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi. Sebaliknya, koefisien negatif menunjukkan kecenderungan penurunan kualitas wine.
Berdasarkan hasil pengujian parameter pada taraf signifikansi 5%, variabel yang berpengaruh signifikan terhadap kualitas wine adalah:
| Variabel | p-value | Keputusan |
|---|---|---|
| fixed.acidity | 0.0455 | Signifikan |
| volatile.acidity | < 0.001 | Signifikan |
| residual.sugar | 0.0462 | Signifikan |
| chlorides | < 0.001 | Signifikan |
| free.sulfur.dioxide | 0.0397 | Signifikan |
| total.sulfur.dioxide | < 0.001 | Signifikan |
| density | < 0.001 | Signifikan |
| pH | 0.0475 | Signifikan |
| sulphates | < 0.001 | Signifikan |
| alcohol | < 0.001 | Signifikan |
Sedangkan variabel citric.acid memiliki nilai p-value sebesar 0.0817 sehingga tidak signifikan pada taraf 5%.
Interpretasi dilakukan menggunakan Odds Ratio (OR):
\[OR=e^{\beta_j}\]
Koefisien:
\[\beta=0.1024\]
Odds Ratio:
\[OR=1.108\]
Interpretasi:
Setiap peningkatan satu satuan fixed acidity meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 1,108 kali atau sekitar 10,8%, dengan asumsi variabel lain konstan.
Koefisien:
\[\beta=-3.4179\]
Odds Ratio:
\[OR=0.0328\]
Interpretasi:
Setiap peningkatan satu satuan volatile acidity menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar:
\[(1-0.0328)\times100\%=96.72\%\]
Hasil ini menunjukkan bahwa kadar volatile acidity yang tinggi merupakan faktor utama yang menurunkan kualitas wine.
Koefisien:
\[\beta=0.0762\]
Odds Ratio:
\[OR=1.079\]
Interpretasi:
Peningkatan satu satuan residual sugar meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 7,9%.
Koefisien:
\[\beta=-5.1712\]
Odds Ratio:
\[OR=0.0057\]
Interpretasi:
Peningkatan kandungan chlorides secara signifikan menurunkan peluang wine masuk ke kategori kualitas yang lebih tinggi. Semakin tinggi kadar garam (chlorides), kualitas wine cenderung semakin rendah.
Koefisien:
\[\beta=0.0139\]
Odds Ratio:
\[OR=1.014\]
Interpretasi:
Peningkatan satu satuan free sulfur dioxide meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 1,4%.
Koefisien:
\[\beta=-0.0112\]
Odds Ratio:
\[OR=0.989\]
Interpretasi:
Peningkatan total sulfur dioxide menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar sekitar 1,1%.
Koefisien:
\[\beta=-48.9255\]
Odds Ratio:
\[OR=5.65\times10^{-22}\]
Interpretasi:
Variabel density memiliki pengaruh negatif yang sangat kuat terhadap kualitas wine. Semakin tinggi densitas wine, peluang untuk memperoleh kualitas yang lebih tinggi menjadi sangat kecil.
Koefisien:
\[\beta=-0.9847\]
Odds Ratio:
\[OR=0.374\]
Interpretasi:
Peningkatan pH menyebabkan peluang wine berada pada kategori kualitas yang lebih tinggi menurun sekitar 62,6%.
Koefisien:
\[\beta=2.8672\]
Odds Ratio:
\[OR=17.59\]
Interpretasi:
Setiap peningkatan satu satuan sulphates meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 17,59 kali.
Variabel ini merupakan salah satu faktor yang paling kuat dalam meningkatkan kualitas wine.
Koefisien:
\[\beta=0.8561\]
Odds Ratio:
\[OR=2.354\]
Interpretasi:
Setiap peningkatan satu satuan kadar alkohol meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi sebesar 2,35 kali.
Hasil ini menunjukkan bahwa wine dengan kadar alkohol yang lebih tinggi cenderung memperoleh penilaian kualitas yang lebih baik.
Berdasarkan hasil Brant Test diperoleh:
\[\chi^2 = 132.36\]
dengan
\[p\text{-value}<0.05\]
Hasil tersebut menunjukkan bahwa secara keseluruhan asumsi proportional odds tidak sepenuhnya terpenuhi. Beberapa variabel seperti:
menunjukkan pelanggaran asumsi parallel regression.
Namun demikian, model ordinal masih dapat digunakan sebagai pendekatan awal untuk mengidentifikasi faktor-faktor yang memengaruhi kualitas wine.
Berdasarkan hasil analisis regresi logistik ordinal terhadap data kualitas wine diperoleh bahwa sebagian besar karakteristik kimia wine berpengaruh signifikan terhadap kualitas wine.
Variabel yang terbukti meningkatkan peluang wine berada pada kategori kualitas yang lebih tinggi adalah:
Sedangkan variabel yang menurunkan peluang wine berada pada kategori kualitas yang lebih tinggi adalah:
Variabel yang tidak berpengaruh signifikan pada taraf 5% adalah:
Berdasarkan nilai Odds Ratio, variabel sulphates dan alcohol merupakan faktor yang paling kuat dalam meningkatkan kualitas wine. Sebaliknya, volatile acidity, chlorides, dan density merupakan faktor utama yang menurunkan kualitas wine.
Dengan demikian, peningkatan kualitas wine dapat dicapai melalui pengendalian komposisi kimia, khususnya dengan menjaga kadar sulphates dan alcohol pada tingkat yang optimal serta menekan kadar volatile acidity dan chlorides yang berlebihan.
Regresi Poisson merupakan salah satu anggota keluarga Generalized Linear Model (GLM) yang digunakan untuk memodelkan variabel respon berupa data hitung (count data) (Dobson & Barnett, 2018). Data hitung merupakan data yang menunjukkan banyaknya kejadian yang terjadi dalam suatu interval waktu, wilayah, atau unit observasi tertentu.
Contoh data hitung antara lain:
Karakteristik utama data hitung adalah:
Misalkan variabel respon dinyatakan sebagai:
\[Y_i = 0,1,2,\ldots\]
dan mengikuti distribusi Poisson:
\[Y_i \sim Poisson(\mu_i)\]
dengan:
\[E(Y_i)=\mu_i\]
dan
\[Var(Y_i)=\mu_i\]
Sifat penting distribusi Poisson adalah nilai rata-rata dan variansnya sama.
Distribusi Poisson
Fungsi probabilitas distribusi Poisson dinyatakan sebagai:
\[P(Y=y) = \frac {e^{-\mu}\mu^y} {y!}\]
untuk:
\[y=0,1,2,\ldots\]
dengan:
| Simbol | Keterangan |
|---|---|
| \(Y\) | Variabel respon |
| \(y\) | Nilai observasi |
| \(\mu\) | Rata-rata kejadian |
| \(e\) | Bilangan eksponensial |
| \(y!\) | Faktorial |
Distribusi Poisson digunakan ketika data menunjukkan jumlah kejadian yang terjadi dalam suatu periode tertentu.
Model Regresi Poisson
Dalam regresi Poisson, nilai harapan variabel respon dihubungkan dengan variabel prediktor menggunakan fungsi link logaritma.
Model regresi Poisson dinyatakan sebagai:
\[\log(\mu_i) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p\]
atau dapat dituliskan:
\[\mu_i = \exp ( \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p )\]
dengan:
| Simbol | Keterangan |
|---|---|
| \(\mu_i\) | Ekspektasi jumlah kejadian |
| \(\beta_0\) | Intersep |
| \(\beta_j\) | Koefisien regresi |
| \(X_j\) | Variabel prediktor |
Karena fungsi eksponensial selalu bernilai positif, model ini menjamin nilai prediksi tidak akan negatif.
Interpretasi Koefisien
Koefisien regresi Poisson diinterpretasikan menggunakan perubahan logaritma rata-rata kejadian.
Untuk mempermudah interpretasi digunakan ukuran:
\[IRR=e^\beta\]
yang dikenal sebagai Incidence Rate Ratio.
Incidence Rate Ratio (IRR)
Incidence Rate Ratio menunjukkan perubahan relatif rata-rata jumlah kejadian akibat peningkatan satu satuan variabel prediktor.
\[IRR=e^{\beta_j}\]
Interpretasi:
Sebagai contoh:
\[IRR=1.20\]
berarti peningkatan satu satuan variabel prediktor menyebabkan rata-rata kejadian meningkat sebesar:
\[20\%\]
Sebaliknya:
\[IRR=0.80\]
menunjukkan rata-rata kejadian menurun sebesar:
\[20\%\]
Estimasi Parameter
Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE).
Fungsi likelihood Poisson adalah:
\[L(\beta) = \prod_{i=1}^{n} \frac {e^{-\mu_i}\mu_i^{y_i}} {y_i!}\]
Kemudian dilakukan optimasi terhadap fungsi log-likelihood:
\[\ell(\beta) = \sum_{i=1}^{n} \left[ y_i\log(\mu_i) - \mu_i - \log(y_i!) \right]\]
Estimasi parameter diperoleh menggunakan algoritma iteratif seperti Fisher Scoring atau Newton-Raphson (McCullagh & Nelder, 1989).
Pengujian Parameter
Signifikansi parameter dapat diuji menggunakan statistik Wald:
\[Z= \frac{\hat{\beta}} {SE(\hat{\beta})}\]
Hipotesis yang diuji:
\[H_0:\beta_j=0\]
\[H_1:\beta_j\neq0\]
Apabila:
\[p\text{-value}<0.05\]
maka variabel prediktor berpengaruh signifikan terhadap jumlah kejadian.
Beberapa asumsi penting regresi Poisson adalah:
Asumsi terakhir dikenal sebagai asumsi equidispersion:
\[E(Y)=Var(Y)\]
Dalam praktik sering ditemukan:
\[Var(Y)>E(Y)\]
Kondisi tersebut disebut overdispersion.
Overdispersion menyebabkan:
Pengujian overdispersion dapat dilakukan menggunakan:
Hipotesis yang diuji:
\[H_0: Var(Y)=E(Y)\]
\[H_1: Var(Y)>E(Y)\]
Jika p-value < 0.05 maka terjadi overdispersion.
Apabila terjadi overdispersion, maka model yang lebih sesuai adalah regresi Negative Binomial.
Model ini merupakan pengembangan dari regresi Poisson dengan menambahkan parameter dispersi:
\[Var(Y) = \mu+\alpha\mu^2\]
dengan:
\[\alpha>0\]
merupakan parameter overdispersion.
Model regresi Negative Binomial memiliki bentuk fungsi link yang sama dengan regresi Poisson:
\[\log(\mu_i) = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p\]
Namun model ini lebih fleksibel karena mampu mengakomodasi varians yang lebih besar daripada rata-ratanya.
Oleh karena itu, ketika ditemukan overdispersion yang signifikan, model Negative Binomial umumnya lebih direkomendasikan dibandingkan model Poisson (Hilbe, 2011).
Variabel respon yang digunakan adalah:
\[Y= \text{Perjalanan Wisatawan}\]
Variabel ini menunjukkan jumlah perjalanan wisatawan yang tercatat pada setiap wilayah pengamatan.
Karena berbentuk data hitung, metode yang sesuai digunakan adalah regresi Poisson.
Variabel prediktor yang digunakan adalah:
| Variabel | Keterangan |
|---|---|
| PDRB | Produk Domestik Regional Bruto |
| Desa Penerima Internet | Desa yang memperoleh akses internet |
| Kamar Hotel Bintang Tersedia | Kapasitas akomodasi hotel |
| Jumlah Kendaraan | Kendaraan bermotor yang tersedia |
| Rata-Rata Upah | Tingkat upah pekerja |
Model regresi Poisson yang digunakan adalah:
\[\text{Perjalanan Wisatawan} \sim PDRB + \text{Desa Penerima Internet} + \text{Kamar Hotel Bintang Tersedia} + \text{Jumlah Kendaraan} + \text{Rata-Rata Upah}\]
Model ini digunakan untuk mengidentifikasi faktor-faktor ekonomi, infrastruktur, dan aksesibilitas yang memengaruhi jumlah perjalanan wisatawan.
.
wisata <- read.csv(
"C:/Users/user/Downloads/Data LogPoisson_Wisata.csv"
)
ggplot(wisata,aes(`Perjalanan.Wisatawan`))+
geom_histogram(bins=30,fill="orange")
model_pois <- glm(
`Perjalanan.Wisatawan` ~
`PDRB` +
`Desa.Penerima.Internet` +
`Kamar.Hotel.Bintang.Tersedia` +
`Jumlah.Kendaraan` +
`Rata.Rata.Upah`,
family=poisson(link="log"),
data=wisata)
summary(model_pois)
##
## Call:
## glm(formula = Perjalanan.Wisatawan ~ PDRB + Desa.Penerima.Internet +
## Kamar.Hotel.Bintang.Tersedia + Jumlah.Kendaraan + Rata.Rata.Upah,
## family = poisson(link = "log"), data = wisata)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.688e+01 3.080e-04 54819.0 <2e-16 ***
## PDRB 7.448e-07 1.162e-10 6407.9 <2e-16 ***
## Desa.Penerima.Internet 2.413e-05 3.505e-08 688.3 <2e-16 ***
## Kamar.Hotel.Bintang.Tersedia 1.235e-05 2.456e-09 5028.4 <2e-16 ***
## Jumlah.Kendaraan 3.337e-08 1.211e-11 2754.9 <2e-16 ***
## Rata.Rata.Upah -2.295e-07 8.447e-11 -2717.1 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 2017316570 on 37 degrees of freedom
## Residual deviance: 259660317 on 32 degrees of freedom
## AIC: 259661017
##
## Number of Fisher Scoring iterations: 5
exp(coef(model_pois))
## (Intercept) PDRB
## 2.145663e+07 1.000001e+00
## Desa.Penerima.Internet Kamar.Hotel.Bintang.Tersedia
## 1.000024e+00 1.000012e+00
## Jumlah.Kendaraan Rata.Rata.Upah
## 1.000000e+00 9.999998e-01
dispersiontest(model_pois)
##
## Overdispersion test
##
## data: model_pois
## z = 2.168, p-value = 0.01508
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion
## 7463877
model_nb <- glm.nb(
`Perjalanan.Wisatawan` ~
`PDRB` +
`Desa.Penerima.Internet` +
`Kamar.Hotel.Bintang.Tersedia` +
`Jumlah.Kendaraan` +
`Rata.Rata.Upah`,
data=wisata)
summary(model_nb)
##
## Call:
## glm.nb(formula = Perjalanan.Wisatawan ~ PDRB + Desa.Penerima.Internet +
## Kamar.Hotel.Bintang.Tersedia + Jumlah.Kendaraan + Rata.Rata.Upah,
## data = wisata, init.theta = 2.019679624, link = log)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.820e+01 8.447e-01 21.540 < 2e-16 ***
## PDRB 1.405e-06 5.853e-07 2.400 0.01641 *
## Desa.Penerima.Internet -2.895e-05 1.223e-04 -0.237 0.81286
## Kamar.Hotel.Bintang.Tersedia 1.596e-05 9.724e-06 1.642 0.10063
## Jumlah.Kendaraan 4.920e-08 6.309e-08 0.780 0.43546
## Rata.Rata.Upah -7.426e-07 2.291e-07 -3.241 0.00119 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Negative Binomial(2.0197) family taken to be 1)
##
## Null deviance: 155.311 on 37 degrees of freedom
## Residual deviance: 41.066 on 32 degrees of freedom
## AIC: 1336.8
##
## Number of Fisher Scoring iterations: 1
##
##
## Theta: 2.020
## Std. Err.: 0.431
##
## 2 x log-likelihood: -1322.796
Model regresi Poisson digunakan untuk menganalisis pengaruh faktor-faktor ekonomi dan infrastruktur terhadap jumlah perjalanan wisatawan. Model yang diperoleh adalah:
\[\log(\mu_i) = 16.88 +0.0000007448(PDRB) +0.00002413(Desa\ Penerima\ Internet) +0.00001235(Kamar\ Hotel\ Bintang\ Tersedia) +0.00000003337(Jumlah\ Kendaraan) -0.0000002295(Rata\text{-}Rata\ Upah)\]
dengan:
\[\mu_i = E(Y_i)\]
menyatakan nilai harapan jumlah perjalanan wisatawan.
Karena model menggunakan fungsi link logaritma, interpretasi koefisien dilakukan menggunakan Incidence Rate Ratio (IRR):
\[IRR=e^{\beta_j}\]
Nilai IRR menunjukkan perubahan ekspektasi jumlah perjalanan wisatawan akibat kenaikan satu satuan variabel prediktor dengan asumsi variabel lain konstan.
Secara umum:
Berdasarkan hasil pengujian parameter diperoleh bahwa seluruh variabel pada model Poisson memiliki nilai p-value kurang dari 0,05 sehingga signifikan secara statistik.
| Variabel | Koefisien | p-value | Keputusan |
|---|---|---|---|
| PDRB | 7.448e-07 | <0.001 | Signifikan |
| Desa Penerima Internet | 2.413e-05 | <0.001 | Signifikan |
| Kamar Hotel Bintang Tersedia | 1.235e-05 | <0.001 | Signifikan |
| Jumlah Kendaraan | 3.337e-08 | <0.001 | Signifikan |
| Rata-Rata Upah | -2.295e-07 | <0.001 | Signifikan |
Nilai IRR:
\[IRR=e^{0.0000007448} \approx 1.000001\]
Interpretasi:
Peningkatan PDRB menyebabkan ekspektasi jumlah perjalanan wisatawan meningkat. Hubungan positif ini menunjukkan bahwa daerah dengan aktivitas ekonomi yang lebih tinggi cenderung menghasilkan jumlah perjalanan wisata yang lebih besar.
Nilai IRR:
\[IRR=1.000024\]
Interpretasi:
Peningkatan jumlah desa yang menerima akses internet meningkatkan ekspektasi jumlah perjalanan wisatawan. Ketersediaan internet dapat meningkatkan akses informasi mengenai destinasi wisata sehingga mendorong mobilitas wisatawan.
Nilai IRR:
\[IRR=1.000012\]
Interpretasi:
Semakin banyak kamar hotel bintang yang tersedia maka ekspektasi jumlah perjalanan wisatawan semakin meningkat. Infrastruktur akomodasi yang baik mampu mendukung pertumbuhan aktivitas pariwisata.
Nilai IRR:
\[IRR=1.000000\]
Interpretasi:
Koefisien positif menunjukkan bahwa peningkatan jumlah kendaraan berkaitan dengan peningkatan jumlah perjalanan wisatawan. Ketersediaan sarana transportasi dapat meningkatkan mobilitas masyarakat menuju destinasi wisata.
Nilai IRR:
\[IRR=0.9999998\]
Interpretasi:
Koefisien negatif menunjukkan bahwa peningkatan rata-rata upah berkaitan dengan penurunan ekspektasi jumlah perjalanan wisatawan. Hasil ini mengindikasikan adanya hubungan yang berlawanan arah antara tingkat upah dan jumlah perjalanan wisata pada data yang digunakan.
Salah satu asumsi penting regresi Poisson adalah:
\[E(Y)=Var(Y)\]
yang berarti nilai rata-rata dan varians respon harus sama.
Berdasarkan hasil uji overdispersi diperoleh:
\[z=2.168\]
dengan
\[p\text{-value}=0.01508\]
Karena nilai p-value lebih kecil dari 0,05 maka terdapat bukti terjadinya overdispersi.
Selain itu diperoleh nilai dispersi sebesar:
\[\hat{\phi}=7.463.877\]
yang jauh lebih besar dari satu.
Hasil ini menunjukkan bahwa asumsi dasar regresi Poisson tidak terpenuhi sehingga model Poisson berpotensi menghasilkan standar error yang terlalu kecil dan kesimpulan yang kurang akurat.
Untuk mengatasi overdispersi dilakukan estimasi menggunakan model
Negative Binomial.
Hasil estimasi menunjukkan bahwa variabel yang signifikan adalah:
| Variabel | p-value | Keputusan |
|---|---|---|
| PDRB | 0.0164 | Signifikan |
| Rata-Rata Upah | 0.0012 | Signifikan |
| Desa Penerima Internet | 0.8129 | Tidak Signifikan |
| Kamar Hotel Bintang Tersedia | 0.1006 | Tidak Signifikan |
| Jumlah Kendaraan | 0.4355 | Tidak Signifikan |
Model Negative Binomial menghasilkan:
\[AIC = 1336.8\]
dengan parameter dispersi:
\[\theta = 2.020\]
yang menunjukkan bahwa model telah mengakomodasi variasi data yang lebih besar dibandingkan model Poisson.
| Kriteria | Poisson | Negative Binomial |
|---|---|---|
| Asumsi Mean = Variance | Ya | Tidak |
| Overdispersi | Tidak teratasi | Teratasi |
| Uji Overdispersi | Signifikan | Sudah diakomodasi |
| Interpretasi | IRR | IRR |
| Kesesuaian untuk data ini | Kurang sesuai | Lebih sesuai |
Dengan adanya overdispersi yang sangat besar, model Negative Binomial dinilai lebih tepat digunakan untuk menjelaskan jumlah perjalanan wisatawan dibandingkan model Poisson.
Berdasarkan hasil regresi Poisson diperoleh bahwa seluruh variabel, yaitu PDRB, Desa Penerima Internet, Kamar Hotel Bintang Tersedia, Jumlah Kendaraan, dan Rata-Rata Upah berpengaruh signifikan terhadap jumlah perjalanan wisatawan.
Variabel PDRB, Desa Penerima Internet, Kamar Hotel Bintang Tersedia, dan Jumlah Kendaraan memiliki pengaruh positif terhadap jumlah perjalanan wisatawan, sedangkan variabel Rata-Rata Upah memiliki pengaruh negatif.
Namun demikian, hasil uji overdispersi menunjukkan bahwa asumsi dasar regresi Poisson tidak terpenuhi sehingga model Poisson kurang sesuai digunakan pada data ini.
Model Negative Binomial yang dibentuk sebagai alternatif menunjukkan bahwa hanya variabel PDRB dan Rata-Rata Upah yang tetap signifikan setelah overdispersi diperhitungkan. Oleh karena itu, model Negative Binomial dinilai lebih tepat dan lebih reliabel dalam menjelaskan faktor-faktor yang memengaruhi jumlah perjalanan wisatawan.
Secara substantif, hasil penelitian menunjukkan bahwa kondisi ekonomi daerah yang tercermin melalui PDRB merupakan faktor utama yang mendorong peningkatan jumlah perjalanan wisatawan, sedangkan tingkat upah memiliki hubungan yang berlawanan arah terhadap jumlah perjalanan wisata yang terjadi.
Keempat model yang digunakan pada penelitian ini merupakan bagian dari keluarga Generalized Linear Model (GLM). Meskipun sama-sama digunakan untuk menganalisis hubungan antara variabel respon dan variabel prediktor, masing-masing model memiliki karakteristik, asumsi, serta interpretasi yang berbeda sesuai dengan jenis data yang dianalisis.
| Model | Jenis Respon | Skala Data Respon | Fungsi Link | Distribusi |
|---|---|---|---|---|
| Regresi Logistik Biner | Dua kategori | Nominal | Logit | Binomial |
| Regresi Logistik Multinomial | Lebih dari dua kategori tanpa urutan | Nominal | Generalized Logit | Multinomial |
| Regresi Logistik Ordinal | Lebih dari dua kategori berurutan | Ordinal | Cumulative Logit | Multinomial Ordinal |
| Regresi Poisson | Data hitung (count) | Rasio | Log | Poisson |
Interpretasi parameter pada masing-masing model juga berbeda.
Koefisien diinterpretasikan menggunakan Odds Ratio (OR).
\[OR=e^{\beta_j}\]
Nilai OR menunjukkan perubahan peluang terjadinya suatu kejadian akibat kenaikan satu satuan variabel prediktor.
Koefisien diinterpretasikan menggunakan Relative Risk Ratio (RRR).
\[RRR=e^{\beta_j}\]
Nilai RRR menggambarkan perubahan peluang suatu kategori respon dibandingkan kategori referensi.
Koefisien diinterpretasikan menggunakan Odds Ratio Kumulatif.
Interpretasi dilakukan terhadap peluang respon berada pada kategori yang lebih tinggi dibandingkan kategori yang lebih rendah.
Koefisien diinterpretasikan menggunakan Incidence Rate Ratio (IRR).
\[IRR=e^{\beta_j}\]
Nilai IRR menunjukkan perubahan ekspektasi jumlah kejadian akibat kenaikan satu satuan variabel prediktor.
Model logistik biner digunakan untuk memodelkan status diabetes yang terdiri atas dua kategori, yaitu diabetes dan tidak diabetes.
Hasil analisis menunjukkan bahwa model memiliki performa yang baik dengan:
Variabel yang berpengaruh signifikan terhadap kejadian diabetes adalah:
Hasil menunjukkan bahwa kadar glukosa darah, indeks massa tubuh, riwayat keluarga diabetes, serta jumlah kehamilan merupakan faktor penting yang meningkatkan risiko seseorang mengalami diabetes.
Model logistik multinomial digunakan karena variabel respon berupa pilihan moda transportasi yang terdiri atas beberapa kategori tanpa urutan tertentu.
Model menghasilkan:
Variabel yang berpengaruh signifikan adalah:
Hasil menunjukkan bahwa waktu perjalanan dan biaya perjalanan merupakan faktor dominan dalam keputusan pemilihan moda transportasi. Selain itu, karakteristik sosial ekonomi rumah tangga juga memengaruhi preferensi transportasi yang dipilih.
Model logistik ordinal digunakan karena kualitas wine memiliki tingkatan kualitas yang berurutan.
Variabel yang berpengaruh signifikan terhadap kualitas wine adalah:
Variabel yang tidak signifikan:
Berdasarkan nilai Odds Ratio, variabel yang paling meningkatkan kualitas wine adalah:
Sedangkan variabel yang paling menurunkan kualitas wine adalah:
Temuan ini menunjukkan bahwa komposisi kimia wine berperan penting dalam menentukan tingkat kualitas produk.
Model Poisson digunakan untuk memodelkan jumlah perjalanan wisatawan yang merupakan data hitung.
Pada model Poisson seluruh variabel signifikan:
Namun hasil uji overdispersi menunjukkan:
\[p\text{-value}=0.01508\]
yang mengindikasikan adanya overdispersi.
Oleh karena itu dilakukan estimasi menggunakan model Negative Binomial.
Pada model Negative Binomial diperoleh bahwa variabel yang tetap signifikan adalah:
Hasil ini menunjukkan bahwa setelah variasi data diperhitungkan secara lebih realistis, faktor ekonomi daerah menjadi faktor utama yang memengaruhi jumlah perjalanan wisatawan.
Secara keseluruhan diperoleh beberapa temuan penting sebagai berikut.
Pada kasus diabetes, faktor biologis dan riwayat keluarga memiliki pengaruh terbesar terhadap kemungkinan seseorang mengalami diabetes. Variabel Glucose, BMI, dan Diabetes Pedigree Function menjadi prediktor utama dalam model.
Pada kasus pemilihan moda transportasi, faktor biaya dan waktu perjalanan merupakan determinan utama keputusan individu dalam memilih moda transportasi.
Pada kasus kualitas wine, karakteristik kimia produk sangat menentukan kualitas akhir yang dihasilkan. Kandungan sulphates dan alcohol terbukti meningkatkan kualitas wine secara signifikan.
Pada kasus perjalanan wisatawan, kondisi ekonomi daerah yang direpresentasikan oleh PDRB menjadi faktor yang paling konsisten memengaruhi jumlah perjalanan wisatawan.
Regresi logistik biner, multinomial, ordinal, dan Poisson merupakan metode yang sangat penting dalam analisis data kategorik dan data hitung. Pemilihan model harus disesuaikan dengan karakteristik variabel respon yang digunakan.
Kesalahan dalam memilih model dapat menyebabkan interpretasi yang tidak tepat dan kesimpulan yang menyesatkan. Oleh karena itu identifikasi jenis data respon merupakan tahap awal yang sangat penting sebelum melakukan pemodelan statistik.
Hasil penelitian menunjukkan bahwa setiap model mampu menjelaskan hubungan antara variabel respon dan variabel prediktor sesuai karakteristik datanya masing-masing.
Berdasarkan seluruh analisis yang telah dilakukan, diperoleh beberapa kesimpulan utama sebagai berikut.
Regresi logistik biner berhasil digunakan untuk memodelkan risiko diabetes dengan tingkat akurasi sebesar 78,26%. Faktor utama yang meningkatkan risiko diabetes adalah Glucose, BMI, Diabetes Pedigree Function, Pregnancies, dan Blood Pressure.
Regresi logistik multinomial berhasil digunakan untuk menganalisis pemilihan moda transportasi dengan tingkat akurasi sebesar 86,67%. Faktor biaya perjalanan, waktu perjalanan, pendapatan rumah tangga, dan ukuran rumah tangga terbukti memengaruhi keputusan pemilihan moda.
Regresi logistik ordinal berhasil digunakan untuk menganalisis kualitas wine berdasarkan karakteristik kimia produk. Variabel sulphates dan alcohol merupakan faktor yang paling meningkatkan kualitas wine, sedangkan volatile acidity, chlorides, dan density cenderung menurunkan kualitas wine.
Regresi Poisson berhasil digunakan untuk menganalisis jumlah perjalanan wisatawan. Akan tetapi ditemukan adanya overdispersi sehingga model Negative Binomial memberikan hasil yang lebih reliabel. Variabel PDRB dan Rata-Rata Upah merupakan faktor yang paling konsisten memengaruhi jumlah perjalanan wisatawan.
Keempat model yang digunakan menunjukkan bahwa pendekatan Generalized Linear Model sangat fleksibel dalam menangani berbagai jenis variabel respon, baik kategorik maupun data hitung.
Pemilihan model yang sesuai dengan karakteristik data merupakan faktor utama dalam menghasilkan inferensi statistik yang valid dan interpretasi yang tepat.
Agresti, A. (2018). An Introduction to Categorical Data Analysis (3rd ed.). Wiley. ISBN: 978-1119405269
Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley. ISBN: 978-1118730034
Dobson, A. J., & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4th ed.). CRC Press. ISBN: 978-1138741515
Faraway, J. J. (2016). Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models (2nd ed.). CRC Press. ISBN: 978-1498720960
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models (3rd ed.). Sage Publications. ISBN: 978-1483388916
Hardin, J. W., & Hilbe, J. M. (2018). Generalized Linear Models and Extensions (4th ed.). Stata Press. ISBN: 978-1597182836
Hilbe, J. M. (2011). Negative Binomial Regression (2nd ed.). Cambridge University Press. https://doi.org/10.1017/CBO9780511973420
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley. https://doi.org/10.1002/9781118548387
Long, J. S., & Freese, J. (2014). Regression Models for Categorical Dependent Variables Using Stata (3rd ed.). Stata Press. ISBN: 978-1597181112
McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall. https://doi.org/10.1007/978-1-4899-3242-6
Menard, S. (2010). Logistic Regression: From Introductory to Advanced Concepts and Applications. Sage Publications. ISBN: 978-1412974837
O’Hara, R. B., & Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118–122. https://doi.org/10.1111/j.2041-210X.2010.00021.x
Verbeek, M. (2017). A Guide to Modern Econometrics (5th ed.). Wiley. ISBN: 978-1119401155
Washington, S. P., Karlaftis, M. G., Mannering, F. L., & Anastasopoulos, P. (2020). Statistical and Econometric Methods for Transportation Data Analysis (3rd ed.). CRC Press. https://doi.org/10.1201/9780429244018