1 PENDAHULUAN
1.1 Latar Belakang
Sebuah penelitian biasanya untuk memodelkan hubungan antara 2 variabel, yaitu variabel respons dan variabel prediktor menggunakan model regresi linear. Namun tidak selamanya model linear dapat digunakan pada data yang terjadi pelanggaran asumsi di dalamnya. Khususnya pada variabel respons dengan skala data nominal. Menurut Kutner, dkk. (2004) penggunaan OLS hanya akan membawa ke 2 pelanggaran asumsi regresi OLS yaitu: Galat dari model yang dihasilkan tidak menyebar normal dan ragam dari galat tidak homogen. Adapun terjadi pelanggaran bagi batasan nilai duga variabel respon, jika menggunakan OLS fitted value yang dihasilkan biasanya akan melebihi rentang 0 - 1, sedangkan pada data berskala nominal hanya terdapat dua nilai Y yaitu 0 atau 1. Suatu Universitas ingin mengetahui hubungan antara frekuensi belajar (Jam/Minggu) dengan ketepatan waktu lulus kuliah yang dihubungkan dengan jenis kelamin (0 : Wanita dan 1 : Pria) dan skor ujian. Kelulusan kuliah diukur dengan nilai 0 : Tidak tepat waktu dan 1 : Tepat waktu. Sampel diambil dari 50 mahasiswa. Untuk menjawab penelitian di atas, tentu karena variabel respons (Ketepatan Kuliah) berupa data dikotomik (0 atau 1) penggunaan regresi OLS tidak cocok sehingga permodelan regresi dapat menggunakan regresi logistik (model logit) di mana model ini memprediksi berdasarkan peluang terjadinya suatu peristiwa dengan mencocokan data pada fungsi logit kurva logistik. Regresi logistik sendiri tidak dibutuhkan asumsi normalitas
2 TINJAUAN PUSTAKA
2.1 Regresi Logistik
Menurut Dowdy, regresi logistik merupakan analisis yang menggunakan variabel independen kuantitatif untuk memprediksi probabilitas kemunculan variabel dependen biner. Lebih terperinci regresi logistik merupakan salah satu bentuk analisis matematika untuk melihat adanya hubungan antara variabel bebas ke satu variabel terikat yang bersifat dikotomis di mana variabel yang memiliki dua nilai/kategori (Biner) dengan variabel independen yang memiliki skala data minimal nominal. Menurut Yasril, ada beberapa persyaratan yang harus dipenuhi sebelum menggunakan regresi logistik 1. Hubungan linearitas antar variabel tidak diperlukan. 2. Variabel independen tidak memerlukan asumsi normalitas 3. Tidak perlu asumsu homokedastisitas 4. Variabel dependen (Y) harus bersifat dikotomis (Biner) 5. Jika variabel independennya kategori maka kategorinya harus berbeda atau eksklusif 6. Sampel yang dibutuhkan relatif besar dan minimal sampel untuk variabel dependen adalah 50 7. Regresi logistik menggunakan pendekatan transformasi logaritma non linear untuk memprediksi hubungan yang dinyatakan sebagai odds ratio
2.2 Regresi Logistik Biner
Regresi logistik biner adalah salah satu jenis regresi logistik di mana variabel dependen jika dan hanya jika memiliki dua kategori yang dapat dinotasikan dengan 0 dan 1. Model regresinya sebagai berikut :
\[ \pi(x) = \frac{\exp(\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p)}{1 + \exp(\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p)} \]
Dengan fungsi logit model regresinya sebagai berikut :
\[ g(x) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p \]
2.3 Asumsi Non Multikolinearitas
Multikolinearitas suatu asumsi dalam regresi logistik adalah suatu kondisi di mana terdapat korelasi yang kuat antara dua atau lebih variabel prediktor dalam model regresi. Terpenuhinya asumsi non multikolinearitas dapat diidentifikasi menggunakan Variance Inflation Factor (VIF) dengan rumus \[ VIF_i = \frac{1}{1 - R_i^2} \]
Secara umum, kriteria penggunaan VIF sebagai berikut: - VIF < 10 : Tidak terjadi Multikolinearitas - VIF ≥ 10 : Terjadi Multikolinearitas
2.4 Pengujian Parameter Model
2.4.1 Uji Simultan
Pengujian parameter secara keseluruhan berguna untuk mengetahui apakah ada pengaruh dari keseluruhan variabel independen terhadap model dengan hipotesis : \[ \begin{aligned} H_0 &: \beta_1 = \beta_2 = \cdots = 0 \\ H_1 &: \beta_i \neq 0 \quad \text{dengan} \quad i = 1, 2, 3, \ldots \\ \end{aligned} \]
2.4.2 Uji Parsial
Pengujian ini dilakukan jika pengujian simultian memberikan hasil terdapat minimal satu variabel independen yang berpengaruh terhadap model. Uji parsial ini berguna untuk mengetahu variabel apa saja yang memberikan pengaruh. Pengujian ini dapat menggunakan Uji Wald dengan hipotesis : \[ \begin{aligned} H_0 &: \beta_i = 0\text{(tidak terdapat signifikansi model terhadap koefisien logit)}\\ H_1 &: \beta_i \neq 0 \text{(signifikansi model terdapat pada koefisien logit)} \end{aligned} \]
2.4.3 Uji Kesesuaian Model
Uji kesesuaian model adalah uji untuk mengetahui kelayakan sebuah model regresi dengan menggunakan uji Hosmer dan Lemeshow sebagai alat ujinya. Hipotesis yang digunakan : \[ \begin{aligned} H_0&:\text{Model cocok dengan data pengamatan}\\ H_1&:\text{Model tidak cocok dengan data pengamatan} \end{aligned} \]
2.5 Ketepatan Klasifikasi
Ketepatan klasifikasi adalah cara untuk mengetahui apakah suatu model tersebut tepat dalam menduga nilai duga. Salah satu alternatif untuk mencari nilai peluang ketepatan klasifikasi dapat menggunakan Confusion Matrix.
Aktual | Prediksi 0 | Prediksi 1 |
---|---|---|
0 | N11 | N12 |
1 | N21 | N22 |
Sebelum mencari nilai ketepatan klasifikasi, dapat mencari nilai Apparent Error Rate (APER). APER sendiri adalah peluang kesalahan model dalam menduga taksiran dengan rumus : \[ APER = \left( \frac{n_{12} + n_{21}}{n_{1} + n_{2}} \right) \times 100\% \] \[ \text{Ketepatan klasifikasi} = 1 - APER \]
2.6 Interpretasi Koefisien Parameter
Interpretasi koefisien parameter adalah menentukan hubungan fungsional antara variabel respons dengan variabel prediktor serta mendefinisikan perubahan yang terjadi. Model logit yang terbentuk terdapat dua nilai π(x) dan dua nilai 1 - π(x), yaitu ketika x = 0 (Tidak lulus tepat waktu) dan x = 1 (Lulus Tepat Waktu). Dalam menjelaskan koefisien parameter seringkali digunakan oddsratio yang menyatakan kecenderungan yang didefinisikan sebagai rasio antara jumlah individu yang mengalami peristiwa tertenu dengan yang tidak mengalami peristiwa tersebut (Agresti, 1990). Rumus odds ratio sebagai berikut : \[ \begin{aligned} \psi &= \frac{\text{odds } A}{\text{odds } B} \\ &= \frac{\frac{\pi_A}{1 - \pi_A}}{\frac{\pi_B}{1 - \pi_B}} \end{aligned} \]
3 HASIL DAN PEMBAHASAN
3.1 Data
Data yang diambil adalah data kelulusan mahasiswa berdasarkan lama belajar, skor ujian, dan jenis kelamin. Dengan variabel respons berupa lulus tepat waktu (0 : Tidak Tepat Waktu dan 1 : Tepat Waktu) dan variabel prediktor berupa lama belajar (Jam), skor ujian, dan jenis kelamin (0 : Laki-Laki dan 1 : Perempuan). Berikut syntax untuk mengimport data dari folder komputer.
3.2 Model Regresi Logistik Biner
Dari data di atas, akan dihitung nilai setiap koefisien regresi logistiknya dengan syntax :
> modellogistik<-glm(Kelulusan~Lama_Belajar+Skor_Ujian+Jenis_Kelamin, data = data_logistik, family = binomial(link = logit))
> modellogistik
Call: glm(formula = Kelulusan ~ Lama_Belajar + Skor_Ujian + Jenis_Kelamin,
family = binomial(link = logit), data = data_logistik)
Coefficients:
(Intercept) Lama_Belajar Skor_Ujian Jenis_Kelamin
-8.16645 0.27683 0.07883 -1.64679
Degrees of Freedom: 49 Total (i.e. Null); 46 Residual
Null Deviance: 68.03
Residual Deviance: 42.22 AIC: 50.22
Akan diperoleh model regresi yaitu : \[ \pi(x) = \frac{\exp(\ -8.166 + \ 0.277 X_1 + \ 0.079 X_2 \ -1.647 X_3 )}{1 + \exp(\ -8.166 + \ 0.277 X_1 + \ 0.079 X_2 \ -1.647 X_3)} \] Keterangan
X1 : Lama Belajar
X2 : Skor Ujian
X3 : Jenis Kelamin
3.3 Pengecekan Multikolinearitas
> library(car)
> vif(modellogistik)
Lama_Belajar Skor_Ujian Jenis_Kelamin
1.037059 1.031950 1.019644
Karena ketiga variabel prediktor menghasilkan nilai VIF < 10, maka tidak ada korelasi antara ketiga variabel prediktor sehingga asumsi non multikolinearitas terpenuhi.
3.4 Pengujian Parameter Secara Simultan
> library(pscl)
> pR2(modellogistik)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-21.1076787 -34.0146000 25.8138427 0.3794524 0.4032618 0.5423911
> qchisq(0.95, 3)
[1] 7.814728
Untuk menguji parameter secara simultan digunakan Statistik G2 yang menyebar secara X2. Diperoleh nilai G2 sebesar 25.814 yang mana lebih besar dari nilai X2 dengan α = 0.05 dan db = 3 sebesar 7.815. Sehingga menghasilkan keputusan tolak H0. Maka setidaknya ada satu variabel prediktor yang berpengaruh terhadap variabel respons
3.5 Pengujian Parameter Secara Parsial
> summary(modellogistik)
Call:
glm(formula = Kelulusan ~ Lama_Belajar + Skor_Ujian + Jenis_Kelamin,
family = binomial(link = logit), data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6866 -0.7180 0.2687 0.5544 2.0633
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -8.16645 3.50951 -2.327 0.0200 *
Lama_Belajar 0.27683 0.11121 2.489 0.0128 *
Skor_Ujian 0.07883 0.04076 1.934 0.0531 .
Jenis_Kelamin -1.64679 0.78585 -2.096 0.0361 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 68.029 on 49 degrees of freedom
Residual deviance: 42.215 on 46 degrees of freedom
AIC: 50.215
Number of Fisher Scoring iterations: 5
Dari output tersebut dapat disimpulkan, karena p-value dari variabel Lama Belajar dan Jenis Kelamin kurang dari α (0.05) maka menghasilkan keputusan Tolak H0 di mana mengartikan bahwa kedua variabel tersebut memiliki pengaruh signifikan terhadap peluang lulus tepat waktu seorang mahasiswa.
3.6 Uji Kesesuaian Model
> library(generalhoslem)
> logitgof(data_logistik$Kelulusan,fitted(modellogistik))
Hosmer and Lemeshow test (binary model)
data: data_logistik$Kelulusan, fitted(modellogistik)
X-squared = 8.6325, df = 8, p-value = 0.3742
Dari output yang dihasilkan, dapat dilihat bahwa p-value dari uji hosmer and lemeshow bernilai 0.374 yang mana lebih besar dari nilai α (0.05) sehingga menghasilkan keputusan terima H0. Artinya model logistik yang dibentuk dapat merepresentasikan data pengamatan yang digunakan.
3.7 Ketepatan Klasifikasi
Sebelum menentukan nilai ketepatan klasifikasi. Kita dapat membentuk tabel confusion matrix 2x2 dengan 2 variabel yaitu variabel aktual (Observer) dan variabel prediktor (Predictor). Variabel prediktor sendiri merupakan nilai respons duga yang dihasilkan ketika setiap pengamatan disubstitusikan pada model logit.
> yp_hat<-fitted(modellogistik)
> data_logistik$yp_hat<-yp_hat
> data_logistik
# A tibble: 50 × 6
Nomor Kelulusan Lama_Belajar Skor_Ujian Jenis_Kelamin yp_hat
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 14 62 1 0.259
2 2 1 21 66 0 0.945
3 3 1 15 78 0 0.894
4 4 1 16 69 0 0.846
5 5 0 8 65 1 0.0776
6 6 0 9 78 1 0.236
7 7 1 13 92 0 0.936
8 8 0 9 66 1 0.107
9 9 1 20 75 0 0.964
10 10 0 10 79 1 0.306
# ℹ 40 more rows
> class<-table(data_logistik$Kelulusan,data_logistik$yp_hat>0.5)
> class
FALSE TRUE
0 15 6
1 5 24
Dari tabel klasifikasi dapat diketahui :
Dari 20 orang yang lulus tidak tepat waktu, 5 di antaranya diprediksi lulus tepat waktu.
Dari 29 orang yang lulus tepat waktu, 5 diantaranya diprediksi lulus tidak tepat waktu.
Lalu dapat dihitung nilai APER dan tingkat ketepatan klasifikasi dari model tersebut
Diperoleh ketepatan klasifikasi sebesar 0.78, dengan kata lain model logit yang terbentuk hanya dapat menebak atau mengklasifikasikan objek penelitian dengan tepat hanya 78%
3.8 ODD Ratio
> beta<-(coef(modellogistik))
> beta
(Intercept) Lama_Belajar Skor_Ujian Jenis_Kelamin
-8.16644960 0.27682524 0.07882782 -1.64679248
> OR_beta<-exp(beta)
> OR_beta
(Intercept) Lama_Belajar Skor_Ujian Jenis_Kelamin
0.0002840246 1.3189358603 1.0820179995 0.1926669024
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -8.16644960 0.0002840246
Lama_Belajar 0.27682524 1.3189358603
Skor_Ujian 0.07882782 1.0820179995
Jenis_Kelamin -1.64679248 0.1926669024
Dari hasil output dapat disimpulkan : 1. Lama Belajar Bertambahnya lama belajar mahasiswa setiap 1 jam perminggunya akan meningkatkan kecenderungan mahasiswa lulus pada waktunya sebesar 1.319 kali. 2. Skor Ujian Bertambahnya nilai ujian yang diperoleh mahasiswa 1 satuan akan meningkatkan kecenderungan mahasiswa lulus tepat pada waktunya sebesar 1.082 kali. 3. Jenis Kelamin Mahasiswa laki-laki memiliki kecenderungan lulus tepat waktu sebesar 0.193 kali lebih besar dibandingkan mahasiswa perempuan.
4 KESIMPULAN
Berdasarkan hasil analisis menggunakan regresi logistik biner menghasilkan kesimpulan yaitu model regresi logistik biner sebagai berikut \[ P(Y = 0) = \Phi(-8.166 + 0.277X_1 + 0.079X_2 - 1.647X_3) \]
\[ P(Y = 1) = 1 - \Phi(-8.166 + 0.277X_1 + 0.079X_2 - 1.647X_3) \] Keterangan :
X1 : Lama Belajar
X2 : Skor Ujian
X3 : Jenis Kelamin
Hasil Odd Ratio menyimpulkan bahwa lama belajar hanya meningkatkan peluang lulus tepat waktu sebesar 1.319 kali. Namun mahasiswa perempuan 5 kali berpeluang untuk lulus tepat waktu dibanding mahasiswa laki-laki. Terakhir skor ujian ternyata kurang berpengaruh terhadap tepat waktunya mahasiswa lulus karena hanya meningkatkan peluang sebesar 1.082 kali.
5 DAFTAR PUSTAKA
Harlan, J. (2018). Analisis Regresi Logistik. Gunadarma.
Sofiyat, A. I., Tjalla, A., & Mahdiyah. (2023). PEMODELAN REGRESI LOGISTIK BINER TERHADAP PENERIMAAN PEGAWAI DI PT XYZ JAKARTA. Matematika Sains, 1.
Situngkir, R. H., & Sembiring, P. (2023). Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Kesejahteraan Masyarakat Kabupaten/Kota Di Pulau Nias. Matematika Dan Pendidikan Matematika , 6, 25–31.