Model Regresi Logistik Ordinal

1. Tinjauan Pustaka

1.1. Konsep Dasar Regresi Logistik Ordinal

Menurut Agresti (2002) model regresi logistik termasuk dalam model linear umum (Generalized Linear Models). Model regresi logistik juga dapat disebut sebagai model logit. Model logit digunakan untuk memodelkan hubungan antara satu variabel respon yang bersifat kategori dan beberapa variabel bebas yang bersifat kategori maupun kontinu. Apabila variabel respon terdiri dari lebih dari dua kategori dan terdapat tingkatan dalam kategori tersebut (skala ordinal) maka dinamakan model regresi logistik ordinal. Dalam Agresti (2002) model untuk regresi logistik ordinal adalah model logit kumulatif (cumulative logit models). Pada model logit ini sifat ordinal dari respon Y dituangkan dalam peluang kumulatif. Terdapat dua tujuan utama dalam regresi logistik, yaitu mengidentifikasi variabel independen yang mempengaruhi pengelompokkan variabel dependen dan membuat sistem klasifikasi yang berbasis pada model logistik untuk pengelompokkan.

Misalkan variabel respon Y memiliki J buah kategori berskala ordinal dan \(x_i\) menyatakan vektor variabel prediktor ke-p pada pengamatan ke-i, \(\pmb{x_i}=\begin{bmatrix} x_{i1} & x_{i2} & ... & x_{ip} \end{bmatrix}^T\) dengan \(i=1,2,...,n\), maka model logit kumulatif dinyatakan sebagai berikut.

\[ \boxed{logit[P(Y_i\leq j|\pmb{x_i})]=\alpha_j+\pmb{x_i}^T\pmb{\beta}} \]

dengan \(P(Y_i\leq j|\pmb{x_i})\) adalah peluang kumulatif kurang dari atau sama dengan kategori ke-j apabila diketahui \(x_i\), \(\alpha_j\) merupakan parameter intersep yang meningkat seiring j \(\alpha_1\leq \alpha_2 \leq ... \leq \alpha_{J-1}\) karena \(P(Y_i\leq j|\pmb{x_i})\) meningkat seiring j untuk \(x\) yang tetap, dan \(\pmb{\beta}=\begin{bmatrix} \beta_1 & \beta_2 & ... &\beta_p \end{bmatrix}^T\) merupakan vektor koefisien regresi yang bersesuaian dengan \(x_1, x_2, ..., x_p\).

1.2. Model Regresi Logistik Ordinal

Logit kumulatif didefinisikan sebagai \[ logit[P(Y_i\leq j|\pmb{x_i})]=ln \begin{bmatrix} \frac{P(Y_i\leq j|\pmb{x_i})} {1-P(Y_i\leq j|\pmb{x_i})} \end{bmatrix} , \quad g=1,2,...,J-1 \]

maka model regresi logistik ordinal dapat dinyatakan sebagai \[ logit[P(Y_i\leq j|\pmb{x_i})]=ln \begin{bmatrix} \frac{P(Y_i\leq j|\pmb{x_i})} {1-P(Y_i\leq j|\pmb{x_i})} \end{bmatrix} = \alpha_j+\pmb{x_i}^T\pmb{\beta} \]

sehingga diperoleh \[ P(Y_i\leq j|\pmb{x_i})= \frac{exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} , \quad j=1,2,...,J-1 \]

Misalkan \(\pi_j(\pmb{x_i})=P(Y_i\leq j|\pmb{x})\) menyatakan peluang variabel respon pada pengamatan ke-i kategori ke-j jika diketahui \(\pmb{x_i}\), maka \[ \begin{aligned} P(Y_i\leq j|\pmb{x_i})&= P(Y_i=1|\pmb{x_i})+P(Y_i=2|\pmb{x_i})+...+P(Y_i=j|\pmb{x_i}) \\ &=\pi_1(\pmb{x_i})+\pi_2(\pmb{x_i})+...+\pi_j(\pmb{x_i}) \end{aligned} \]

sehingga peluang untuk masing-masing ketagori respon dapat dinyatakan sebagai \[ \pi_j(\pmb{x_i})=P(Y_i=j|\pmb{x_i})-P(Y_i=j-1|\pmb{x_i}), \quad j=1,2,...,J \]

maka diperoleh \[ \boxed{ \pi_j(\pmb{x_i})= \frac{exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} - \frac{exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})}, \quad j=1,2,...,J } \] dengan \(\frac{exp(\alpha_0+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_0+\pmb{x_i}^T\pmb{\beta})}=0\) dan \(\frac{exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})}=0=1\).

Sebagai contoh dimisalkan variabel respon memiliki tiga buah kategori \((J=3)\), maka model regresi logistik ordinal yang terbentuk adalah \[ \begin{aligned} logit[P(Y_i\leq 1|\pmb{x_i})]&= ln \begin{bmatrix} \frac{P(Y_i\leq 1|\pmb{x_i})} {1-P(Y_i\leq 1|\pmb{x_i})} \end{bmatrix} = \alpha_1+\pmb{x_i}^T\pmb{\beta} \\ P(Y_i\leq 1|\pmb{x_i})&= \frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} \\ logit[P(Y_i\leq 2|\pmb{x_i})]&= ln \begin{bmatrix} \frac{P(Y_i\leq 2|\pmb{x_i})} {2-P(Y_i\leq 2|\pmb{x_i})} \end{bmatrix} = \alpha_2+\pmb{x_i}^T\pmb{\beta} \\ P(Y_i\leq 2|\pmb{x_i})&= \frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} \end{aligned} \]

Sehingga diperoleh peluang untuk masing-masing respon yaitu:

  • Peluang Kategori Pertama \[ \begin{aligned} \pi_1(\pmb{x_i})&=P(Y_i=1|\pmb{x_i})=P(Y_i\leq 1|\pmb{x_i}) \\ &= \frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} \end{aligned} \]

  • Peluang Kategori Kedua \[ \begin{aligned} \pi_2(\pmb{x_i})&=P(Y_i=2|\pmb{x_i})=P(Y_i\leq 2|\pmb{x_i})-P(Y_i\leq 1|\pmb{x_i}) \\ &= \frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}- \frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})} \end{aligned} \]

  • Peluang Kategori Ketiga \[ \begin{aligned} \pi_3(\pmb{x_i})&=P(Y_i=3|\pmb{x_i})=P(Y_i\leq 3|\pmb(x_i))-P(Y_i\leq 2|\pmb{x_i}) \\ &= 1-\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} \end{aligned} \]

1.3. Estimasi Parameter

Penaksiran parameter pada regresi logistik ordinal dilakukan dengan menggunakan metode Maximum Likelihood Estimation (MLE) (Agresti,2002). Jika diambil n sampel vektor variabel random \(\pmb{Y}_1, \pmb{Y}_2,..., \pmb{Y}_n\) dengan \(\pmb{Y}_i=\begin{bmatrix} y_{i1} & y_{i2} &...& y_{i,J-1}\end{bmatrix}^T\) yang berdistribusi multinomial dengan peluang hasil kategori ke-j adalah \(\pi_j(\pmb{x_i})\), maka terbentuk fungsi likelihood yaitu

\[ \begin{aligned} l(\pmb{\theta}) &= \prod_{i=1}^n \prod_{j=1}^J (\pi_j(\pmb{x_i}))^{y_{ij}} \\ &= \prod_{i=1}^n \prod_{j=1}^J \begin{bmatrix} \frac{exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} - \frac{exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})} \end{bmatrix}^{y_{ij}} \end{aligned} \]

Menurut Hosmer dan Lemeshow (2000) prinsip dari metode MLE adalah mengestimasi vektor parameter \(\pmb{\theta}=\begin{bmatrix} \alpha_1 & \alpha_2 ... \alpha_{J-1} & \beta_1 & \beta_2 &... & \beta_{J-1} \end{bmatrix}^T\) dengan memaksimalkan fungsi likelihood lalu dilakukan transformasi ln pada fungsi likelihood sehingga terbentuk fungsi ln-likelihood sebagai berikut. \[ \begin{aligned} L(\pmb{\theta}) &= ln \begin{bmatrix} l(\pmb{\theta}) \end{bmatrix} \\ &= \prod_{i=1}^n \prod_{j=1}^J y_{ij} ln \begin{bmatrix} \frac{exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_j+\pmb{x_i}^T\pmb{\beta})}- \frac{exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})} {1+exp(\alpha_{j-1}+\pmb{x_i}^T\pmb{\beta})} \end{bmatrix} \end{aligned} \]

yang apabila dimisalkan terdapat tiga kategori pada variabel respon \((G=3)\), maka fungsi ln-likelihood menjadi \[ L(\pmb{\theta})=\sum_{i=1}^n \left\{y_{i1}ln \begin{bmatrix}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}\end{bmatrix}+ y_{i2}ln\begin{bmatrix}\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}-\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}\end{bmatrix} + y_{i3}ln\begin{bmatrix}1-\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}\end{bmatrix} \right\} \]

yang dapat disederhanakan dalam bentuk \[ L(\pmb{\theta})=\sum_{i=1}^n \left\{ y_{i1}(\alpha_1+\pmb{x_i}^T\pmb{\beta})-(y_{i1}+y_{i2}ln\left[1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]+y_{i2}ln\left[exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})-exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]+(y_{i1}-1)ln\left[1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})\right] \right\} \]

Estimasi parameter dengan metode Maximum Likelihood Estimation (MLE) dilakukan dengan menurunkan fungsi log-likelihood terhadap parameter yang akan diestimasi. Turunan parsial pertama dari fungsi ln-likelihood tersebut kemudian disamakan dengan nol untuk memperoleh nilai parameter yang memaksimumkan fungsi likelihood. Oleh karena itu, langkah awal dalam proses estimasi adalah menentukan turunan parsial pertama dari fungsi ln-likelihood terhadap parameter yang diestimasi. $$ \[\begin{aligned} \frac{\partial L(\pmb{\theta})}{\partial \alpha_1}&= \sum_{i=1}^n \left\{ y_{i1}-(y_{i1}+y_{i2})\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}-y_{i2}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})-exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} \right\}=0 \\ \frac{\partial L(\pmb{\theta})}{\partial \alpha_2} &= \sum_{i=1}^n \left\{ y_{i2}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})-exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}+(y_{i1}-1)\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} \right\}=0 \\ \frac{\partial L(\pmb{\theta})}{\partial \beta}&= \sum_{i=1}^n \left\{ (y_{i1}+y_{i2})\pmb(x_i)^T\frac{1}{1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}+(y_{i1}-1)\pmb{x_i}^T\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})} \right\}=0 \end{aligned}\]

$$

Turunan parsial pertama dari fungsi ln-likelihood yang akan diestimasi umumnya menghasilkan persamaan yang bersifat nonlinear terhadap parameter. Oleh karena itu, penentuan estimasi parameter dengan metode kemungkinan maksimum tidak dapat diselesaikan secara langsung dengan cara analitik sederhana. Proses estimasi biasanya memerlukan prosedur numerik yang bersifat iteratif untuk memperoleh nilai parameter yang konvergen. Salah satu metode iteratif yang sering digunakan adalah metode Newton–Raphson, yaitu algoritma numerik yang mencari solusi persamaan nonlinear dengan mendekati titik dimana fungsi mencapai nilai maksimum atau minimum. Metode ini bekerja dengan memperbarui nilai parameter secara berulang berdasarkan turunan pertama dan kedua dari fungsi yang dioptimalkan sampai diperoleh nilai yang stabil.

Oleh karena itu diperlukan turunan parsial kedua fungsi ln-likelihood terhadap parameter yang akan diestimasi yaitu sebagai berikut. \[ \begin{aligned} \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1^2}&= \sum_{i=1}^n \left\{ -(y_{i1}+y_{i2})\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2}-y_{i2}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})-exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2} \right\} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1\partial\alpha_2} &= \sum_{i=1}^n y_{i2}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})-exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1\partial\beta} &= \sum_{i=1}^n \left\{ -(y_{i1}+y_{i2})\pmb{x_i}^T\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2} \right\} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_2^2}&= \sum_{i=1}^n \left\{ -y_{i2}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[exp(\alpha_2+\pmb{x_i}^T\pmb{\beta}-exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2}+(y_{i1}-1)\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})\right]^2} \right\} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_2\partial\beta} &= \sum_{i=1}^n \left\{ (y_{i1}-1)\pmb{x_i}^T\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})\right]^2} \right\} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \beta \partial{\beta}^T}&= \sum_{i=1}^n \left\{ -(y_{i1}+y_{i2})\pmb{x_i}^T\pmb{x_i}\frac{exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_1+\pmb{x_i}^T\pmb{\beta})\right]^2}+(y_{i1}-1)\pmb{x_i}^T\pmb{x_i}\frac{exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})}{\left[1+exp(\alpha_2+\pmb{x_i}^T\pmb{\beta})\right]^2} \right\} \end{aligned} \]

Menurut Alan Agresti (2002), persamaan yang digunakan dalam proses iterasi Newton–Raphson untuk memperoleh nilai estimasi parameter \(\pmb{\theta}\) dinyatakan sebagai \[ \pmb{\theta}^{(t+1)})=\pmb{\theta}^{(t)}-\left[\pmb{H}(\pmb{\theta}^{(t)})\right]^{-1}\pmb{q}(\pmb{\theta}^{(t)}) \]

dengan \(\pmb{H}(\pmb{\theta})\) merupakan matriks nonsingular yang elemen-elemennya berupa turunan parsial kedua dari fungsi ln-likelihood terhadap parameter yang diestimasi. Sementara itu, \(\pmb{q}(\pmb{\theta})\) adalah vektor yang berisi turunan parsial pertama dari fungsi log-likelihood terhadap parameter yang diestimasi. Notasi t menyatakan banyaknya iterasi (\(t=0,1,2,...\)). Dengan demikian, bentuk elemen dari vektor \(\pmb{q}(\pmb{\theta})\) dan matriks \(\pmb{H}(\pmb{\theta})\) dapat dituliskan sebagai berikut. \[ \begin{aligned} \pmb{q}(\pmb{\theta}) &= \begin{bmatrix} \frac{\partial L(\pmb{\theta})}{\partial \alpha_1} & \frac{\partial L(\pmb{\theta})}{\partial \alpha_2} & \frac{\partial L(\pmb{\theta})}{\partial \pmb{\beta}} \end{bmatrix} \\ \pmb{H}(\pmb{\theta}) &= \begin{bmatrix} \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1^2} & \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1 \partial \alpha_2} & \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1 \partial \pmb{\beta}} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1 \partial \alpha_2} & \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_2^2} & \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_2 \partial \beta} \\ \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_1 \partial \pmb{\beta}} & \frac{\partial^2 L(\pmb{\theta})}{\partial \alpha_2 \partial \pmb{\beta}} & \frac{\partial^2 L(\pmb{\theta})}{\partial \pmb{\beta} \partial \pmb{\beta}}^T\\ \end{bmatrix} \end{aligned} \]

1.4. Asumsi Proportional Odds (Parallel Lines)

Pada regresi logistik ordinal terdapat asumsi penting yaitu asumsi proportional odds atau parallel lines. Asumsi ini menyatakan bahwa pengaruh variabel independen terhadap logit kumulatif bersifat konstan pada setiap batas kategori variabel respon. Dengan kata lain, koefisien regresi yang dihasilkan untuk setiap kategori respon adalah sama.

Pengujian asumsi ini dapat dilakukan menggunakan Brant Test. Hipotesis yang digunakan dalam pengujian ini adalah sebagai berikut:

\(H_0\) : Asumsi proportional odds terpenuhi.

\(H_1\) : Asumsi proportional odds tidak terpenuhi.

Kriteria pengambilan keputusan dilakukan dengan membandingkan nilai p-value dengan taraf signifikansi 0,05. Jika p-value lebih besar dari 0,05 maka \(H_0\) tidak ditolak sehingga dapat disimpulkan bahwa asumsi proportional odds terpenuhi.

Dalam perangkat lunak R, pengujian ini dapat dilakukan menggunakan Brant Test yang tersedia pada paket brant Setelah model regresi logistik ordinal diestimasi menggunakan fungsi polr() dari paket MASS.

1.5. Uji Kecocokan Model (Goodness of Fit)

Uji Goodness of Fit dilakukan untuk mengetahui apakah model regresi logistik ordinal yang dibangun telah sesuai dengan data yang digunakan. Salah satu metode yang digunakan adalah uji Deviance yang membandingkan model yang diestimasi dengan model jenuh.

Hipotesis:

\(H_0\) : Model sesuai dengan data (good fit).

\(H_1\) : Model tidak sesuai dengan data.

Statistik Uji Deviance \[ D=-2\sum_{i=1}^n \sum_{j=1}^J \left[ y_{ij}ln \left( \frac{\hat{\pi_{ij}}}{y_{ij}} \right) \right] \]

dengan \(\hat{\pi_{ij}}=\hat{\pi_g}(x_i)\) merupakan peluang observasi ke-i pada kategori ke-j

Apabila nilai \(Deviance > \chi^2_{(J-(p+1);\alpha)}\) atau nilai \(p-value < 0,05\) maka tidak ada cukup bukti untuk menerima \(H_0\) sehingga model dianggap tidak memiliki kecocokan yang baik terhadap data. Nilai Deviance juga dapat diperoleh dari output pada fungsi polr() pada perangkat lunak R.

1.6. Uji Rasio Likelihood (Uji Keseluruhan)

Uji Rasio Likelihood diperoleh dengan cara membandingkan fungsi ln-likelihood dari seluruh variabel bebas dengan fungsi ln-likelihood tanpa variabel bebas. Uji Rasio Likelihood digunakan untuk mengetahui apakah variabel bebas yang terdapat dalam model berpengaruh nyata atau tidak secara keseluruhan.

Hipotesis

\(H_0:\beta_1=\beta_2=...=\beta_p\)

\(H_1\): Paling sedikit salah satu dari \(\beta_k\neq 0\) dengan \(k=1,2,...,p\)

Statistik Uji Rasio Likelihood \[ G^2 =-2ln\left(\frac{\text{likelihood tanpa variabel bebas}}{\text{likelihood dengan variabel bebas}}\right) \]

Kriteria uji pada uji adalah apabila \(H_0\) ditolak jika nilai \(G^2 > \chi^2_{(\alpha,p)}\) atau nilai \(p-value < \alpha\). Nilai statistik hitung \(G^2\) juga dapat diperoleh menggunakan fungsi pR2 pada package pscl.

1.7. Uji Wald (Uji Parameter secara Individu)

Uji Wald digunakan untuk mengetahui apakah masing-masing variabel independen berpengaruh secara signifikan terhadap variabel dependen dalam model regresi logistik ordinal. Uji ini dilakukan secara parsial untuk setiap koefisien parameter yang terdapat dalam model.

Hipotesis yang digunakan dalam uji Wald adalah: \(H_0:\beta_k=0\)

\(H_1:\beta_k\neq 0\) dengan \(k=1,2,...,p\)

Statistik Uji Rasio Likelihood \[ W_k= \left[ \frac{\hat{\beta_k}}{SE(\hat{\beta_k})} \right]^2 \]

Kita dapat menolak \(H_0\) apabila nilai \(W_k>\chi^2_{(\alpha;1)}\) atau nilai \(p-value<\alpha(0,05)\) sehingga kesimpulan yang diperoleh adalah variabel independen tersebut berpengaruh signifikan terhadap variabel dependen.

Dalam perangkat lunak R, uji Wald dapat diperoleh langsung dari hasil estimasi model regresi logistik ordinal menggunakan fungsi polr() pada paket MASS. Nilai statistik uji dapat dilihat pada output fungsi summary() yang menampilkan nilai t-value untuk setiap koefisien parameter.

2. Studi Kasus

Data yang digunakan dalam studi kasus ini adalah dataset wine yang tersedia pada paket ordinal di perangkat lunak R. Dataset ini sering digunakan sebagai contoh dalam analisis regresi logistik ordinal karena variabel responnya berbentuk kategori berurutan (ordinal).

Dataset wine berisi hasil penilaian kualitas anggur oleh sejumlah panelis terhadap anggur yang diproses dengan perlakuan tertentu. Variabel respon dalam dataset ini adalah rating, yang menunjukkan tingkat penilaian kualitas anggur oleh panelis. Variabel ini bersifat ordinal karena terdiri dari beberapa kategori penilaian yang memiliki urutan tingkat kualitas, mulai dari kualitas rendah hingga kualitas yang lebih tinggi.

Dalam penelitian ini digunakan dua variabel independen, yaitu temp dan contact. Variabel temp menunjukkan suhu proses fermentasi anggur, sedangkan variabel contact menunjukkan lama kontak antara kulit anggur dengan sari buah selama proses pembuatan anggur. Kedua variabel tersebut merupakan faktor proses produksi yang secara teoritis dapat memengaruhi karakteristik dan kualitas akhir anggur.

Pemilihan variabel temp dan contact sebagai variabel independen dalam model dilakukan karena keduanya merupakan faktor yang secara langsung berkaitan dengan proses pembuatan anggur. Perbedaan suhu fermentasi dapat memengaruhi reaksi kimia selama proses produksi, sementara lama kontak dengan kulit anggur dapat memengaruhi warna, aroma, dan cita rasa anggur. Oleh karena itu, variasi pada kedua faktor tersebut diduga dapat memengaruhi penilaian kualitas anggur yang diberikan oleh panelis.

3. Hasil dan Pembahasan

3.1. Persiapan Data

library(MASS)
library(dplyr)
library(ordinal)
library(kableExtra)

# Input Data
ordinaldf<- ordinal::wine[,2:4]

Berikut adalah preview dataset yang digunakan pada studi kasus ini.

rating temp contact
2 cold no
3 cold no
3 cold yes
4 cold yes
4 warm no
4 warm no
5 warm yes
5 warm yes
1 cold no
2 cold no

Sebelum melakukan analisis regresi logistik ordinal, beberapa variabel pada dataset perlu disesuaikan tipe datanya agar sesuai dengan kebutuhan model. Salah satu cara yang dilakukan adalah dengan menggunakan fungsi as.factor() di R.

Fungsi as.factor() digunakan untuk mengubah tipe data suatu variabel menjadi faktor, yaitu tipe data kategorik yang terdiri dari beberapa kategori atau level. Transformasi ini penting dilakukan apabila variabel yang digunakan dalam analisis merupakan variabel kategorik tetapi masih tersimpan dalam bentuk numerik atau karakter.

ordinaldf$rating<- factor(ordinaldf$rating,
                          levels = c(1,2,3,4,5))  

ordinaldf$temp<- factor(ordinaldf$temp,
                       levels = c("cold","warm"))

ordinaldf$contact<- factor(ordinaldf$contact,
                       levels = c("no","yes"))

3.2. Membangun Model Regresi Logistik Ordinal

Model regresi logistik ordinal pada penelitian ini dibentuk menggunakan fungsi polr() dari paket MASS dalam perangkat lunak R. Model tersebut dituliskan sebagai berikut:

model_polr<- polr(rating ~ temp + contact, data=ordinaldf, method="logistic")

Perintah tersebut digunakan untuk mengestimasi model regresi logistik ordinal dengan variabel rating sebagai variabel dependen dan variabel temp serta contact sebagai variabel independen. Argumen method = "logistic" menunjukkan bahwa model yang digunakan adalah model regresi logistik ordinal dengan fungsi tautan logit.

Berdasarkan hasil estimasi model yang diperoleh, maka model peluang kumulatif untuk setiap kategori rating dapat dituliskan sebagai berikut.

#model summary
summary(model_polr)
## Call:
## polr(formula = rating ~ temp + contact, data = ordinaldf, method = "logistic")
## 
## Coefficients:
##            Value Std. Error t value
## tempwarm   2.503     0.5287   4.735
## contactyes 1.528     0.4766   3.205
## 
## Intercepts:
##     Value   Std. Error t value
## 1|2 -1.3444  0.5171    -2.5998
## 2|3  1.2508  0.4379     2.8565
## 3|4  3.4669  0.5978     5.7998
## 4|5  5.0064  0.7309     6.8496
## 
## Residual Deviance: 172.9838 
## AIC: 184.9838

Model untuk \(P(Y_i\leq 1|x_i)\) \[ \begin{aligned} P(Y_i\leq 1|x_i) &= \frac{e^{\alpha_1+\beta_1(temp_warm)+\beta_2(contact_yes)}}{1+e^{\alpha_1+\beta_1(temp_warm)+\beta_2(contact_yes)}} \\ P(Y_i\leq 1|x_i) &= \frac{e^{-1.344+2.503(temp_warm)+1.528(contact_yes)}}{1+e^{-1.344+2.503(temp_warm)+1.528(contact_yes)}} \end{aligned} \]

Model untuk \(P(Y_i\leq 2|x_i)\) \[ \begin{aligned} P(Y_i\leq 2|x_i) &= \frac{e^{\alpha_2+\beta_1(temp_warm)+\beta_2(contact_yes)}}{1+e^{\alpha_2+\beta_1(temp_warm)+\beta_2(contact_yes)}} \\ P(Y_i\leq 2|x_i) &= \frac{e^{1.2508+2.503(temp_warm)+1.528(contact_yes)}}{1+e^{1.2508+2.503(temp_warm)+1.528(contact_yes)}} \end{aligned} \]

Model untuk \(P(Y_i\leq 3|x_i)\) \[ \begin{aligned} P(Y_i\leq 3|x_i) &= \frac{e^{\alpha_3+\beta_1(temp_warm)+\beta_2(contact_yes)}}{1+e^{\alpha_3+\beta_1(temp_warm)+\beta_2(contact_yes)}} \\ P(Y_i\leq 3|x_i) &= \frac{e^{3.467+2.503(temp_warm)+1.528(contact_yes)}}{1+e^{3.467+2.503(temp_warm)+1.528(contact_yes)}} \end{aligned} \]

Model untuk \(P(Y_i\leq 4|x_i)\) \[ \begin{aligned} P(Y_i\leq 4|x_i) &= \frac{e^{\alpha_4+\beta_1(temp_warm)+\beta_2(contact_yes)}}{1+e^{\alpha_4+\beta_1(temp_warm)+\beta_2(contact_yes)}} \\ P(Y_i\leq 4|x_i) &= \frac{e^{5.0064+2.503(temp_warm)+1.528(contact_yes)}}{1+e^{5.0064+2.503(temp_warm)+1.528(contact_yes)}} \end{aligned} \]

3.3. Pengujian Asumsi Proportional Odds (Parallel Lines)

Untuk mengetahui apakah pengaruh variabel independen terhadap logit kumulatif bersifat konstan pada setiap batas kategori variabel respon perlu dilakukan pengujian asumsi Proportional Odds yang dilakukan menggunakan Brant Test seperti di bawah ini.

library(brant)
brant_test<- brant(model_polr)
## -------------------------------------------- 
## Test for X2  df  probability 
## -------------------------------------------- 
## Omnibus      1.52    6   0.96
## tempwarm 0.93    3   0.82
## contactyes   0.86    3   0.84
## -------------------------------------------- 
## 
## H0: Parallel Regression Assumption holds

Berdasarkan hasil uji Brant yang diperoleh, nilai p-value pada uji omnibus sebesar 0,96. Karena nilai tersebut lebih besar dari taraf signifikansi yang digunakan (\(\alpha = 0,05\)), maka \(H_0\) gagal ditolak. Hal ini menunjukkan bahwa secara keseluruhan model regresi logistik ordinal yang digunakan telah memenuhi asumsi proportional odds.

Selain itu, pengujian juga dilakukan pada masing-masing variabel independen. Variabel temp_warm memiliki p-value sebesar 0,82, sedangkan variabel contac_tyes memiliki p-value sebesar 0,84. Kedua nilai tersebut juga lebih besar dari 0,05, sehingga dapat disimpulkan bahwa tidak terdapat pelanggaran asumsi proportional odds pada masing-masing variabel independen.

Dengan demikian, dapat disimpulkan bahwa model regresi logistik ordinal yang dibentuk telah memenuhi asumsi parallel regression, sehingga model tersebut layak digunakan untuk analisis lebih lanjut.

3.4. Uji Kecocokan Model (Goodness of Fit)

Uji kecocokan model (goodness of fit) dilakukan untuk mengetahui apakah model regresi logistik ordinal yang dibentuk telah sesuai dengan data yang digunakan.

summ<- summary(model_polr)
summ$deviance
## [1] 172.9838

Diperoleh Deviance adalah sebesar 172.9839 dengan nilai \(\chi^2_{(\alpha,J-(p+1))}\) sebesar 5.9914645. Sehingga diperoleh kesimpulan jika \(H_0\) ditolak karena nilai \(Deviance (172.9838467) > \chi^2_{(\alpha,J-(p+1))}(5.9914645)\) yang berarti model sesuai atau tidak ada perbedaan antara observasi dan prediksi.

3.5. Uji Likelihood Ratio (Uji Keseluruhan)

Berdasarkan hasil perhitungan menggunakan fungsi pR2(), diperoleh beberapa ukuran Pseudo R² yang digunakan untuk menilai kemampuan model regresi logistik ordinal dalam menjelaskan variabel respon.

library(pscl)
pseudo_r2<- pR2(model_polr)
## fitting null model for pseudo-r2
print(pseudo_r2)
##          llh      llhNull           G2     McFadden         r2ML         r2CU 
##  -86.4919234 -103.7190774   34.4543080    0.1660944    0.3803076    0.4028997

Statistik Uji: \[ \begin{aligned} G^2 &=-2ln\left(\frac{\text{likelihood tanpa variabel bebas}}{\text{likelihood dengan variabel bebas}}\right) \\ G^2 &= -2ln \left(\frac{llhNull}{llh}\right) \\ G^2 &= -2ln(llhNull)-(-2ln(llh)) \\ G^2 &= -2(-103.7190774)+2(-86.4919234) \\ G^2 &= 34.454308 \end{aligned} \]

dengan nilai \(\chi^2_{(\alpha,p)}\) dengan \(\alpha=0,05\) dan p= banyaknya variabel bebas = 2 (temp & contact) diperoleh nilai sebesar 5.9914645. Didapatkan jika nilai statistik hitung \(G^2 (34.454308)>\chi^2_{(\alpha,p)}(5.9914645)\) sehingga \(H_0\) ditolak sehingga dapat disimpulkan jika secara bersama-sama variabel bebas temp & contact memengaruhi model.

3.6. Uji Wald

Uji Wald digunakan untuk mengetahui apakah masing-masing variabel independen dalam model regresi logistik ordinal berpengaruh secara signifikan terhadap variabel dependen. Pengujian ini dilakukan secara parsial terhadap setiap koefisien regresi yang diestimasi dalam model.

coef_estimates<- coef(model_polr)
std_errors<- sqrt(diag(vcov(model_polr)))[names(coef(model_polr))]

z_scores<- coef_estimates/std_errors
p_value<- 2* (1-pnorm(abs(z_scores)))

wald_test_results<- data.frame(Coefficients=coef_estimates,
                               Std_Errors=std_errors,
                               Z_Scores=z_scores,
                               P_values=p_value)

print(wald_test_results)
##            Coefficients Std_Errors Z_Scores     P_values
## tempwarm       2.503073  0.5286779 4.734589 2.194990e-06
## contactyes     1.527786  0.4766213 3.205450 1.348517e-03
coef_estimates<- coef(model_polr)
std_errors<- sqrt(diag(vcov(model_polr)))[names(coef(model_polr))]

z_scores<- coef_estimates/std_errors
p_value<- 2* (1-pnorm(abs(z_scores)))

wald_test_results<- data.frame(Coefficients=coef_estimates,
                               Std_Errors=std_errors,
                               Z_Scores=z_scores,
                               P_values=p_value)

print(wald_test_results)
##            Coefficients Std_Errors Z_Scores     P_values
## tempwarm       2.503073  0.5286779 4.734589 2.194990e-06
## contactyes     1.527786  0.4766213 3.205450 1.348517e-03

Variabel temp_warm memiliki nilai koefisien sebesar 2.503073, nilai Z-score sebesar 4.734589, dan p-value sebesar 2.194990 × 10⁻⁶. Karena nilai p-value lebih kecil dari taraf signifikansi 0,05, maka H₀ ditolak. Hal ini menunjukkan bahwa variabel temp berpengaruh signifikan terhadap rating. Koefisien yang bernilai positif menunjukkan bahwa penggunaan suhu fermentasi warm meningkatkan peluang anggur memperoleh kategori rating yang lebih tinggi.

Selanjutnya, variabel contact_yes memiliki nilai koefisien sebesar 1.527786, nilai Z-score sebesar 3.205450, dan p-value sebesar 0.001348517. Karena nilai p-value juga lebih kecil dari 0,05, maka H₀ ditolak. Hal ini menunjukkan bahwa variabel contact berpengaruh signifikan terhadap rating. Nilai koefisien yang positif menunjukkan bahwa adanya kontak antara kulit anggur dan sari buah selama proses produksi meningkatkan peluang anggur memperoleh rating yang lebih tinggi.

Dengan demikian, berdasarkan hasil uji Wald dapat disimpulkan bahwa variabel temp dan contact secara parsial berpengaruh signifikan terhadap rating dalam model regresi logistik ordinal yang dibentuk.

3.7. Odds Ratio

Odds ratio digunakan untuk mengetahui besarnya perubahan peluang suatu observasi berada pada kategori respon yang lebih tinggi akibat perubahan pada variabel independen. Nilai odds ratio diperoleh dengan melakukan eksponensial terhadap koefisien regresi.

# Odds Ratio
exp(cbind(OR=coef(model_polr), confint(model_polr)))
##                   OR    2.5 %   97.5 %
## tempwarm   12.219985 4.525654 36.42340
## contactyes  4.607962 1.851150 12.09059

Berdasarkan hasil perhitungan, variabel temp_warm memiliki nilai odds ratio sebesar 12.219985 dengan interval kepercayaan 95% sebesar 4.525654 hingga 36.42340. Hal ini menunjukkan bahwa anggur yang diproses dengan suhu fermentasi warm memiliki peluang sekitar 12,22 kali lebih besar untuk memperoleh rating yang lebih tinggi dibandingkan dengan suhu referensi (cold). Selain itu, karena interval kepercayaan tidak mencakup nilai 1, maka dapat disimpulkan bahwa pengaruh variabel temp terhadap rating bersifat signifikan.

Selanjutnya, variabel contact_yes memiliki nilai odds ratio sebesar 4.607962 dengan interval kepercayaan 95% sebesar 1.851150 hingga 12.09059. Hal ini menunjukkan bahwa anggur yang mengalami kontak dengan kulit anggur memiliki peluang sekitar 4,61 kali lebih besar untuk memperoleh rating yang lebih tinggi dibandingkan dengan anggur yang tidak mengalami kontak. Interval kepercayaan yang juga tidak mencakup nilai 1 menunjukkan bahwa variabel contact memiliki pengaruh yang signifikan terhadap rating.

4. Kesimpulan

Berdasarkan hasil analisis regresi logistik ordinal yang telah dilakukan terhadap dataset wine, dapat disimpulkan bahwa variabel temp dan contact berpengaruh terhadap rating anggur yang diberikan oleh panelis.

Hasil pengujian asumsi menggunakan Brant Test menunjukkan bahwa model memenuhi asumsi proportional odds, sehingga model regresi logistik ordinal layak digunakan dalam analisis. Selanjutnya, hasil Likelihood Ratio Test menunjukkan bahwa model yang memasukkan variabel temp dan contact secara signifikan lebih baik dibandingkan dengan model tanpa variabel prediktor.

Berdasarkan uji Wald, kedua variabel independen yaitu temp dan contact terbukti berpengaruh signifikan terhadap rating. Selain itu, hasil perhitungan odds ratio menunjukkan bahwa penggunaan suhu fermentasi warm meningkatkan peluang anggur memperoleh kategori rating yang lebih tinggi sekitar 12,22 kali dibandingkan suhu referensi (cold). Sementara itu, adanya kontak antara kulit anggur dengan sari buah meningkatkan peluang memperoleh rating yang lebih tinggi sekitar 4,61 kali dibandingkan tanpa kontak.

Nilai Pseudo R² yang diperoleh menunjukkan bahwa model memiliki kemampuan yang cukup baik dalam menjelaskan variasi pada variabel rating. Dengan demikian, dapat disimpulkan bahwa faktor suhu fermentasi dan kontak kulit anggur dalam proses produksi berperan dalam memengaruhi kualitas anggur yang dinilai oleh panelis.