1 PENDAHULUAN

1.1 Latar Belakang

Sebuah penelitian biasanya untuk memodelkan hubungan antara 2 variabel, yaitu variabel respons dan variabel prediktor menggunakan model regresi linear. Namun tidak selamanya model linear dapat digunakan pada data yang terjadi pelanggaran asumsi di dalamnya. Khususnya pada variabel respons dengan skala data nominal. Menurut Kutner, dkk. (2004) penggunaan OLS hanya akan membawa ke 2 pelanggaran asumsi regresi OLS yaitu: Galat dari model yang dihasilkan tidak menyebar normal dan ragam dari galat tidak homogen. Adapun terjadi pelanggaran bagi batasan nilai duga variabel respon, jika menggunakan OLS fitted value yang dihasilkan biasanya akan melebihi rentang 0 - 1, sedangkan pada data berskala nominal hanya terdapat dua nilai Y yaitu 0 atau 1. Suatu Universitas ingin mengetahui hubungan antara frekuensi belajar (Jam/Minggu) dengan ketepatan waktu lulus kuliah yang dihubungkan dengan jenis kelamin (0 : Wanita dan 1 : Pria) dan skor ujian. Kelulusan kuliah diukur dengan nilai 0 : Tidak tepat waktu dan 1 : Tepat waktu. Sampel diambil dari 50 mahasiswa. Untuk menjawab penelitian di atas, tentu karena variabel respons (Ketepatan Kuliah) berupa data dikotomik (0 atau 1) penggunaan regresi OLS tidak cocok sehingga permodelan regresi dapat menggunakan regresi logistik (model logit) di mana model ini memprediksi berdasarkan peluang terjadinya suatu peristiwa dengan mencocokan data pada fungsi logit kurva logistik. Regresi logistik sendiri tidak dibutuhkan asumsi normalitas

2 TINJAUAN PUSTAKA

2.1 Regresi Logistik

Menurut Dowdy, regresi logistik merupakan analisis yang menggunakan variabel independen kuantitatif untuk memprediksi probabilitas kemunculan variabel dependen biner. Lebih terperinci regresi logistik merupakan salah satu bentuk analisis matematika untuk melihat adanya hubungan antara variabel bebas ke satu variabel terikat yang bersifat dikotomis di mana variabel yang memiliki dua nilai/kategori (Biner) dengan variabel independen yang memiliki skala data minimal nominal. Menurut Yasril, ada beberapa persyaratan yang harus dipenuhi sebelum menggunakan regresi logistik 1. Hubungan linearitas antar variabel tidak diperlukan. 2. Variabel independen tidak memerlukan asumsi normalitas 3. Tidak perlu asumsu homokedastisitas 4. Variabel dependen (Y) harus bersifat dikotomis (Biner) 5. Jika variabel independennya kategori maka kategorinya harus berbeda atau eksklusif 6. Sampel yang dibutuhkan relatif besar dan minimal sampel untuk variabel dependen adalah 50 7. Regresi logistik menggunakan pendekatan transformasi logaritma non linear untuk memprediksi hubungan yang dinyatakan sebagai odds ratio

2.2 Regresi Logistik Biner

Regresi logistik biner adalah salah satu jenis regresi logistik di mana variabel dependen jika dan hanya jika memiliki dua kategori yang dapat dinotasikan dengan 0 dan 1. Model regresinya sebagai berikut :

\[ \pi(x) = \frac{\exp(\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p)}{1 + \exp(\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p)} \]

Dengan fungsi logit model regresinya sebagai berikut :

\[ g(x) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p \]

2.3 Asumsi Non Multikolinearitas

Multikolinearitas suatu asumsi dalam regresi logistik adalah suatu kondisi di mana terdapat korelasi yang kuat antara dua atau lebih variabel prediktor dalam model regresi. Terpenuhinya asumsi non multikolinearitas dapat diidentifikasi menggunakan Variance Inflation Factor (VIF) dengan rumus \[ VIF_i = \frac{1}{1 - R_i^2} \]

Secara umum, kriteria penggunaan VIF sebagai berikut: - VIF < 10 : Tidak terjadi Multikolinearitas - VIF ≥ 10 : Terjadi Multikolinearitas

2.4 Pengujian Parameter Model

2.4.1 Uji Simultan

Pengujian parameter secara keseluruhan berguna untuk mengetahui apakah ada pengaruh dari keseluruhan variabel independen terhadap model dengan hipotesis : \[ \begin{aligned} H_0 &: \beta_1 = \beta_2 = \cdots = 0 \\ H_1 &: \beta_i \neq 0 \quad \text{dengan} \quad i = 1, 2, 3, \ldots \\ \end{aligned} \]

2.4.2 Uji Parsial

Pengujian ini dilakukan jika pengujian simultian memberikan hasil terdapat minimal satu variabel independen yang berpengaruh terhadap model. Uji parsial ini berguna untuk mengetahu variabel apa saja yang memberikan pengaruh. Pengujian ini dapat menggunakan Uji Wald dengan hipotesis : \[ \begin{aligned} H_0 &: \beta_i = 0\text{(tidak terdapat signifikansi model terhadap koefisien logit)}\\ H_1 &: \beta_i \neq 0 \text{(signifikansi model terdapat pada koefisien logit)} \end{aligned} \]

2.4.3 Uji Kesesuaian Model

Uji kesesuaian model adalah uji untuk mengetahui kelayakan sebuah model regresi dengan menggunakan uji Hosmer dan Lemeshow sebagai alat ujinya. Hipotesis yang digunakan : \[ \begin{aligned} H_0&:\text{Model cocok dengan data pengamatan}\\ H_1&:\text{Model tidak cocok dengan data pengamatan} \end{aligned} \]

2.5 Ketepatan Klasifikasi

Ketepatan klasifikasi adalah cara untuk mengetahui apakah suatu model tersebut tepat dalam menduga nilai duga. Salah satu alternatif untuk mencari nilai peluang ketepatan klasifikasi dapat menggunakan Confusion Matrix.

Aktual	Prediksi 0	Prediksi 1
0	N₁₁	N₁₂
1	N₂₁	N₂₂

Sebelum mencari nilai ketepatan klasifikasi, dapat mencari nilai Apparent Error Rate (APER). APER sendiri adalah peluang kesalahan model dalam menduga taksiran dengan rumus : \[ APER = \left( \frac{n_{12} + n_{21}}{n_{1} + n_{2}} \right) \times 100\% \] \[ \text{Ketepatan klasifikasi} = 1 - APER \]

2.6 Interpretasi Koefisien Parameter

Interpretasi koefisien parameter adalah menentukan hubungan fungsional antara variabel respons dengan variabel prediktor serta mendefinisikan perubahan yang terjadi. Model logit yang terbentuk terdapat dua nilai π(x) dan dua nilai 1 - π(x), yaitu ketika x = 0 (Tidak lulus tepat waktu) dan x = 1 (Lulus Tepat Waktu). Dalam menjelaskan koefisien parameter seringkali digunakan oddsratio yang menyatakan kecenderungan yang didefinisikan sebagai rasio antara jumlah individu yang mengalami peristiwa tertenu dengan yang tidak mengalami peristiwa tersebut (Agresti, 1990). Rumus odds ratio sebagai berikut : \[ \begin{aligned} \psi &= \frac{\text{odds } A}{\text{odds } B} \\ &= \frac{\frac{\pi_A}{1 - \pi_A}}{\frac{\pi_B}{1 - \pi_B}} \end{aligned} \]

3 HASIL DAN PEMBAHASAN

3.1 Data

Data yang diambil adalah data kelulusan mahasiswa berdasarkan lama belajar, skor ujian, dan jenis kelamin. Dengan variabel respons berupa lulus tepat waktu (0 : Tidak Tepat Waktu dan 1 : Tepat Waktu) dan variabel prediktor berupa lama belajar (Jam), skor ujian, dan jenis kelamin (0 : Laki-Laki dan 1 : Perempuan). Berikut syntax untuk mengimport data dari folder komputer.

> library(readxl)
> data_logistik <- read_excel("D:/SEMESTER 4/Komputasi Statistika/Praktikum/Laprak/Laprak 2/Data Logistik.xlsx", 
+                                      col_types = c("numeric", "numeric", "numeric", 
+                                                    "numeric", "numeric"))
> View(data_logistik)

3.2 Model Regresi Logistik Biner

Dari data di atas, akan dihitung nilai setiap koefisien regresi logistiknya dengan syntax :

> modellogistik<-glm(Kelulusan~Lama_Belajar+Skor_Ujian+Jenis_Kelamin, data = data_logistik, family = binomial(link = logit))
> modellogistik

Call:  glm(formula = Kelulusan ~ Lama_Belajar + Skor_Ujian + Jenis_Kelamin, 
    family = binomial(link = logit), data = data_logistik)

Coefficients:
  (Intercept)   Lama_Belajar     Skor_Ujian  Jenis_Kelamin  
     -8.16645        0.27683        0.07883       -1.64679  

Degrees of Freedom: 49 Total (i.e. Null);  46 Residual
Null Deviance:      68.03 
Residual Deviance: 42.22    AIC: 50.22

Akan diperoleh model regresi yaitu : \[ \pi(x) = \frac{\exp(\ -8.166 + \ 0.277 X_1 + \ 0.079 X_2 \ -1.647 X_3 )}{1 + \exp(\ -8.166 + \ 0.277 X_1 + \ 0.079 X_2 \ -1.647 X_3)} \] Keterangan

X₁ : Lama Belajar

X₂ : Skor Ujian

X₃ : Jenis Kelamin

3.3 Pengecekan Multikolinearitas

> library(car)
> vif(modellogistik)
 Lama_Belajar    Skor_Ujian Jenis_Kelamin 
     1.037059      1.031950      1.019644

Karena ketiga variabel prediktor menghasilkan nilai VIF < 10, maka tidak ada korelasi antara ketiga variabel prediktor sehingga asumsi non multikolinearitas terpenuhi.

3.4 Pengujian Parameter Secara Simultan

> library(pscl)
> pR2(modellogistik)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-21.1076787 -34.0146000  25.8138427   0.3794524   0.4032618   0.5423911 
> qchisq(0.95, 3)
[1] 7.814728

Untuk menguji parameter secara simultan digunakan Statistik G² yang menyebar secara X². Diperoleh nilai G² sebesar 25.814 yang mana lebih besar dari nilai X² dengan α = 0.05 dan db = 3 sebesar 7.815. Sehingga menghasilkan keputusan tolak H₀. Maka setidaknya ada satu variabel prediktor yang berpengaruh terhadap variabel respons

3.5 Pengujian Parameter Secara Parsial

> summary(modellogistik)

Call:
glm(formula = Kelulusan ~ Lama_Belajar + Skor_Ujian + Jenis_Kelamin, 
    family = binomial(link = logit), data = data_logistik)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6866  -0.7180   0.2687   0.5544   2.0633  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)  
(Intercept)   -8.16645    3.50951  -2.327   0.0200 *
Lama_Belajar   0.27683    0.11121   2.489   0.0128 *
Skor_Ujian     0.07883    0.04076   1.934   0.0531 .
Jenis_Kelamin -1.64679    0.78585  -2.096   0.0361 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 68.029  on 49  degrees of freedom
Residual deviance: 42.215  on 46  degrees of freedom
AIC: 50.215

Number of Fisher Scoring iterations: 5

Dari output tersebut dapat disimpulkan, karena p-value dari variabel Lama Belajar dan Jenis Kelamin kurang dari α (0.05) maka menghasilkan keputusan Tolak H₀ di mana mengartikan bahwa kedua variabel tersebut memiliki pengaruh signifikan terhadap peluang lulus tepat waktu seorang mahasiswa.

3.6 Uji Kesesuaian Model

> library(generalhoslem)
> logitgof(data_logistik$Kelulusan,fitted(modellogistik))

    Hosmer and Lemeshow test (binary model)

data:  data_logistik$Kelulusan, fitted(modellogistik)
X-squared = 8.6325, df = 8, p-value = 0.3742

Dari output yang dihasilkan, dapat dilihat bahwa p-value dari uji hosmer and lemeshow bernilai 0.374 yang mana lebih besar dari nilai α (0.05) sehingga menghasilkan keputusan terima H₀. Artinya model logistik yang dibentuk dapat merepresentasikan data pengamatan yang digunakan.

3.7 Ketepatan Klasifikasi

Sebelum menentukan nilai ketepatan klasifikasi. Kita dapat membentuk tabel confusion matrix 2x2 dengan 2 variabel yaitu variabel aktual (Observer) dan variabel prediktor (Predictor). Variabel prediktor sendiri merupakan nilai respons duga yang dihasilkan ketika setiap pengamatan disubstitusikan pada model logit.

> yp_hat<-fitted(modellogistik)
> data_logistik$yp_hat<-yp_hat
> data_logistik
# A tibble: 50 × 6
   Nomor Kelulusan Lama_Belajar Skor_Ujian Jenis_Kelamin yp_hat
   <dbl>     <dbl>        <dbl>      <dbl>         <dbl>  <dbl>
 1     1         1           14         62             1 0.259 
 2     2         1           21         66             0 0.945 
 3     3         1           15         78             0 0.894 
 4     4         1           16         69             0 0.846 
 5     5         0            8         65             1 0.0776
 6     6         0            9         78             1 0.236 
 7     7         1           13         92             0 0.936 
 8     8         0            9         66             1 0.107 
 9     9         1           20         75             0 0.964 
10    10         0           10         79             1 0.306 
# ℹ 40 more rows
> class<-table(data_logistik$Kelulusan,data_logistik$yp_hat>0.5)
> class
   
    FALSE TRUE
  0    15    6
  1     5   24

Dari tabel klasifikasi dapat diketahui :

Dari 20 orang yang lulus tidak tepat waktu, 5 di antaranya diprediksi lulus tepat waktu.
Dari 29 orang yang lulus tepat waktu, 5 diantaranya diprediksi lulus tidak tepat waktu.

Lalu dapat dihitung nilai APER dan tingkat ketepatan klasifikasi dari model tersebut

> APER <- (class[1,2] + class[2,1])/(sum(class))
> APER
[1] 0.22
> 
> KT <- 1 - APER
> KT
[1] 0.78

Diperoleh ketepatan klasifikasi sebesar 0.78, dengan kata lain model logit yang terbentuk hanya dapat menebak atau mengklasifikasikan objek penelitian dengan tepat hanya 78%

3.8 ODD Ratio

> beta<-(coef(modellogistik))
> beta
  (Intercept)  Lama_Belajar    Skor_Ujian Jenis_Kelamin 
  -8.16644960    0.27682524    0.07882782   -1.64679248 
> OR_beta<-exp(beta)
> OR_beta
  (Intercept)  Lama_Belajar    Skor_Ujian Jenis_Kelamin 
 0.0002840246  1.3189358603  1.0820179995  0.1926669024 
> cbind(beta,OR_beta)
                     beta      OR_beta
(Intercept)   -8.16644960 0.0002840246
Lama_Belajar   0.27682524 1.3189358603
Skor_Ujian     0.07882782 1.0820179995
Jenis_Kelamin -1.64679248 0.1926669024

Dari hasil output dapat disimpulkan : 1. Lama Belajar Bertambahnya lama belajar mahasiswa setiap 1 jam perminggunya akan meningkatkan kecenderungan mahasiswa lulus pada waktunya sebesar 1.319 kali. 2. Skor Ujian Bertambahnya nilai ujian yang diperoleh mahasiswa 1 satuan akan meningkatkan kecenderungan mahasiswa lulus tepat pada waktunya sebesar 1.082 kali. 3. Jenis Kelamin Mahasiswa laki-laki memiliki kecenderungan lulus tepat waktu sebesar 0.193 kali lebih besar dibandingkan mahasiswa perempuan.

4 KESIMPULAN

Berdasarkan hasil analisis menggunakan regresi logistik biner menghasilkan kesimpulan yaitu model regresi logistik biner sebagai berikut \[ P(Y = 0) = \Phi(-8.166 + 0.277X_1 + 0.079X_2 - 1.647X_3) \]

\[ P(Y = 1) = 1 - \Phi(-8.166 + 0.277X_1 + 0.079X_2 - 1.647X_3) \] Keterangan :

X₁ : Lama Belajar
X₂ : Skor Ujian
X₃ : Jenis Kelamin

Hasil Odd Ratio menyimpulkan bahwa lama belajar hanya meningkatkan peluang lulus tepat waktu sebesar 1.319 kali. Namun mahasiswa perempuan 5 kali berpeluang untuk lulus tepat waktu dibanding mahasiswa laki-laki. Terakhir skor ujian ternyata kurang berpengaruh terhadap tepat waktunya mahasiswa lulus karena hanya meningkatkan peluang sebesar 1.082 kali.

5 DAFTAR PUSTAKA

Harlan, J. (2018). Analisis Regresi Logistik. Gunadarma.

Sofiyat, A. I., Tjalla, A., & Mahdiyah. (2023). PEMODELAN REGRESI LOGISTIK BINER TERHADAP PENERIMAAN PEGAWAI DI PT XYZ JAKARTA. Matematika Sains, 1.

Situngkir, R. H., & Sembiring, P. (2023). Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Kesejahteraan Masyarakat Kabupaten/Kota Di Pulau Nias. Matematika Dan Pendidikan Matematika , 6, 25–31.