ANALISIS REGRESI LOGISTIK DAN ASUMSI

Shafa Alysha

2024-06-01

1 PENDAHULUAN

1.1 Latar Belakang

Statistika merupakan suatu cabang dari ilmu matematika dimana ilmu tersebut dapat membantu banyak dalam kehidupan. Pada ilmu statistika ditemukan banyak permasalahan dalam berbagai kasus baik dalam bidang bisnis, pendidikan, perdagangan, politik, dan sosial. Dari permasalahaan-permasalahan tersebut, statistika sangat berperan penting dalam menentukan keputusan yang akan diambil (Dina, 2008).

Regresi logistik adalah suatu metode dari analisis regresi dengan variabel respon dengan tipe biner atau kategorik. Variabel respon yang bersifat biner atau atau dikotomis terdiri dari dua kategori yang dimisalkan sebagai 0 dan 1 (Hosmer, 2013). Variabel respon ‘0’ merupakan unsur “gagal” sedangkan variabel respon ‘1’ merupakan unsur “sukses”.

1.2 Tinjauan Pustaka

1.2.1 Analisis Regresi

Analisis Regresi merupakan suatu teknik dalam statistika yang berfungsi untuk memeriksa dan memodelkan hubungan antar variabel. Pada analisis ini terdapat dua komponen yang dihubungkan, yakni variabel dependen (Y) atau variabel yang dipengaruhi dan variabel independen (X) yang memengaruhi. Model dari analisis regresi dituliskan sebagai berikut:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+\beta_n \]

Keterangan:

\(Y\)= Variabel dependen (yang dipengaruhi)

\(X_1\) = Variabel independen (yang memengaruhi)

\(\beta_0\) = Intercept

\(\beta_i\) = Koefisien regresi variabel prediktor

1.2.2 Analisis Regresi Logistik Biner

Regresi logistik merupakan suatu metode analisis satatistika untuk mendeskripsikan hubungan antara variabel terikat yang memiliki dua kategori atau lebih dengan satu atau lebih peubah bebas dengan menggunakan skala kategori atau kontinu (Hosmer, 2000). Regresi logistik terbagi menjadi tiga yaitu regresi logistik biner, regresi logistik multinomial, dan regresi logistik ordinal.

Dalam kasus ini menggunakan regresi logistik biner yang digunakan untuk menganalisis hubungan antara satu variabel dependen dan satu variabel independen. Model regresi logistik biner digunakan jika variabel dependennya menghasilkan dua kategori bernilai 0 (tidak lulus) dan 1 (lulus). Diperoleh dengan mengikuti distribusi Bernoulli sebagai berikut:

\[ f(y_i)=\pi(x_i)^{yi}(1-\pi(x_i))^{1-y_i} \]

Misalkan peluang variabel dependen untuk suatu nilai \(x\), dilambangkan \(\pi(x)\). Persamaan umum \(\pi(x)\) dilambangkan sebagai berikut:

\[ \pi_i(x)=\frac {exp(\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+...+\beta_px_{pi})}{1+exp(\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+...+\beta_px_{pi})} \]

Keterangan:

\(\pi(x_i)\) = Peluang terjadinya kategori variabel respon

\(x_{ji}\) = Variabel independen ke-j

p = Banyaknya variabel independen

\(\beta_0\) = Intercept

\(\beta_0,\beta_1,...,\beta_p\) = Koefisien regresi untuk setiap variabel independen

Untuk mempermudah estimasi parameter dalam regresi, digunakan transformasi logit dalam regresi logistik, seperti berikut:

\[ g(x)=ln[\frac{\pi(x)}{1-\pi(x)}] \]

\[ g(x)= \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p \]

1.2.3 Asumsi Linearitas Pada Logit

Asumsi linearitas pada logit dalam analisis regresi logistik merujuk pada asumsi bahwa hubungan antara variabel independen dan logit (log-odds) dari variabel dependen biner adalah linear. Asumsi linearitas menyatakan bahwa logit dari probabilitas dependen adalah fungsi linear dari variabel independen.Berikut merupakan tujuan dilakukannya asumsi linearitas pada logit:

  • Akurasi Model, jika hubungan antara variabel independen dan logit tidak linear, model regresi logistik tidak akan memberikan estimasi yang akurat, yang bisa menyebabkan kesalahan prediksi.
  • Validitas Inferensial, statistik uji dan inferensi yang didasarkan pada model regresi logistik mengasumsikan linearitas pada logit. Pelanggaran asumsi ini dapat membuat hasil uji statistik menjadi tidak valid.

1.3 Data

Data yang digunakan berasal dari website SCRIBD yang membahas mengenai analisis regresi logistik, dimana salah satu contoh data nya membahas tentang hubungan skor Graduated Record Examination (X1) dan status kelulusan (Y) seseorang dalam ujian masuk suatu perguruan tinggi (PT). Berikut merupakan cuplikan data yang digunakan:

> Y <- c(0,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,1,1,1,0,
+        0,1,1,1,1,0,1,1,1,1,1,0,0,0,1,1,0,1,1,1)
> Y
 [1] 0 0 0 0 1 0 0 0 0 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 0 1 1 0 1
[39] 1 1
> X1 <-c(550,460,640,640,520,560,420,620,560,580,800,460,580,700,600,685,
+        760,800,640,605,540,760,800,645,660,560,780,600,650,660,800,660,
+        640,620,750,620,540,725,780,760)
> X1
 [1] 550 460 640 640 520 560 420 620 560 580 800 460 580 700 600 685 760 800 640
[20] 605 540 760 800 645 660 560 780 600 650 660 800 660 640 620 750 620 540 725
[39] 780 760
> data1 <- data.frame(Y,X1)
> str(data1)
'data.frame':   40 obs. of  2 variables:
 $ Y : num  0 0 0 0 1 0 0 0 0 0 ...
 $ X1: num  550 460 640 640 520 560 420 620 560 580 ...
> head(data1)
  Y  X1
1 0 550
2 0 460
3 0 640
4 0 640
5 1 520
6 0 560

1.4 Tujuan

Tujuan dilakukannya analisis regresi logistik adalah untuk mengetahui pengaruh variabel independen (skor Graduated Record Examination) terhadap variabel dependen (status kelulusan).

2 SOURCE CODE

2.1 Library

> #Library
> library(generalhoslem)
> library(pscl)
> library(car)

2.2 Impor Data

Berikut merupakan data pengaruh dari skor Graduate Record Examination(X1) terhadap Status Kelulusan(Y) seseorang dalam ujian masuk suatu perguruan tinggi (PT) yang akan digunakan untuk analisis regresi logistik.

> Y <- c(0,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,1,1,1,0,
+        0,1,1,1,1,0,1,1,1,1,1,0,0,0,1,1,0,1,1,1)
> Y
 [1] 0 0 0 0 1 0 0 0 0 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 0 1 1 0 1
[39] 1 1
> X1 <-c(550,460,640,640,520,560,420,620,560,580,800,460,580,700,600,685,
+        760,800,640,605,540,760,800,645,660,560,780,600,650,660,800,660,
+        640,620,750,620,540,725,780,760)
> X1
 [1] 550 460 640 640 520 560 420 620 560 580 800 460 580 700 600 685 760 800 640
[20] 605 540 760 800 645 660 560 780 600 650 660 800 660 640 620 750 620 540 725
[39] 780 760
> data1 <- data.frame(Y,X1)
> str(data1)
'data.frame':   40 obs. of  2 variables:
 $ Y : num  0 0 0 0 1 0 0 0 0 0 ...
 $ X1: num  550 460 640 640 520 560 420 620 560 580 ...
> head(data1)
  Y  X1
1 0 550
2 0 460
3 0 640
4 0 640
5 1 520
6 0 560

Keterangan:

\(Y\) = Status Kelulusan ( 1=Lulus, 0=Tidak Lulus)

\(X_1\) = Graduated Record Examination (GRE)

Sumber:

https://id.scribd.com/document/509428008/05-Analisis-Regresi-Logistik

2.3 Analisis

> #Analisis Regresi Logistik
> reglog <- glm(Y~X1, family = binomial, data = data1)
> summary(reglog)

Call:
glm(formula = Y ~ X1, family = binomial, data = data1)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.5612  -0.5947   0.1575   0.5600   2.3306  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)   
(Intercept) -15.705221   5.211670  -3.013  0.00258 **
X1            0.025111   0.008299   3.026  0.00248 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 55.051  on 39  degrees of freedom
Residual deviance: 32.011  on 38  degrees of freedom
AIC: 36.011

Number of Fisher Scoring iterations: 6
> 
> #Uji Signifikansi Keseluruhan Model
> pR2(reglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-16.0053201 -27.5255525  23.0404648   0.4185287   0.4378641   0.5857845 
> qchisq(0.95,8)
[1] 15.50731
> 
> #R-Squared
> Rsq <- 1-(32.011/55.051)
> Rsq
[1] 0.418521
> 
> #Tabel Pendugaan Parameter
> beta <- coef(reglog)
> OR_beta <- exp(beta)
> cbind(beta,OR_beta)
                    beta      OR_beta
(Intercept) -15.70522136 1.511155e-07
X1            0.02511128 1.025429e+00
> 
> #Klasifikasi Model
> yp_hat <- fitted(reglog)
> kelas <- table(Y,yp_hat >0.5)
> kelas
   
Y   FALSE TRUE
  0    14    4
  1     4   18
> 
> #Uji Kelayakan Model
> logitgof(Y,fitted(reglog))

    Hosmer and Lemeshow test (binary model)

data:  Y, fitted(reglog)
X-squared = 13.405, df = 8, p-value = 0.09864
> 
> #Asumsi Linearitas pada Logit
> data1$log_x <- log(data1$X1)
> data1$interaction <- data1$X1 * data1$log_x
> model <- glm(Y~X1 + data1$interaction, family = binomial, data = data1)
> summary(model)

Call:
glm(formula = Y ~ X1 + data1$interaction, family = binomial, 
    data = data1)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.56452  -0.57586   0.04195   0.45957   2.17179  

Coefficients:
                  Estimate Std. Error z value Pr(>|z|)
(Intercept)       45.18180   54.94105   0.822    0.411
X1                -0.72345    0.70208  -1.030    0.303
data1$interaction  0.10109    0.09541   1.060    0.289

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 55.051  on 39  degrees of freedom
Residual deviance: 30.922  on 37  degrees of freedom
AIC: 36.922

Number of Fisher Scoring iterations: 7

3 HASIL DAN PEMBAHASAN

3.1 Model Logistik

Berdasarkan hasil output di atas model logit yang terbentuk sebagai berikut

\[ g(x)= -15.705221 + 0.025111 X1 \]

Interpretasi:

Karena \(\beta_1\) bernilai positif, maka setiap kenaikan 1 nilai pada skor Graduate Record Examination akan meningkatkan peluang kelulusan seseorang dalam ujian masuk suatu perguruan tinggi (PT).

3.2 Uji Signifikansi Keseluruhan Model

Hipotesis:

\(H_0\) : \(\beta_1\)=\(\beta_2\)=…=\(\beta_p\)=0

\(H_1\): minimal ada satu \(\beta_j\) ≠ 0, \(j\)=1,2,…,p

> pR2(reglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-16.0053201 -27.5255525  23.0404648   0.4185287   0.4378641   0.5857845 
> qchisq(0.95,8)
[1] 15.50731

Interpretasi:

Pada output diatas diperoleh nilai G2 sebesar 23,0404648 dengan nilai chisquare tabel sebesar 15,50731. Yang mengartikan bahwa nilai G2 lebih besar dari nilai chisquare sehingga dapat diputuskan tolak \(H_0\). Jadi dapat disimpulkan bahwa model signifikan.

3.3 Uji Parsial Parameter Model

P-value untuk variabel independen \(X_1\) yang diperoleh dari hasil output tersebut:

> 0.00248
[1] 0.00248

Interpretasi:

Berdasarkan output yang didapatkan di atas dapat dilihat bahwa X1(skor Graduate Record Examination) memiliki p-value kurang dari alpha 0,05, sehingga keputusan tolak \(H_0\). Jadi dapat disimpulkan bahwa skor Graduate Record Examination berpengaruh signifikan terhadap status kelulusan seseorang dalam ujian masuk suatu perguruan tinggi (PT).

3.4 Odds Ratio

> OR_beta
 (Intercept)           X1 
1.511155e-07 1.025429e+00 

Interpretasi:

Apabila skor Graduate Record Examination bertambah 1 nilai maka kecenderungan untuk lulus meningkat 1,025429 kali lipat. Artinya apabila semakin bagus skor Graduate Record Examination maka potensi untuk lulus seseorang dalam ujian masuk suatu perguruan tinggi (PT) meningkat pula.

3.5 Klasifikasi Model

> kelas
   
Y   FALSE TRUE
  0    14    4
  1     4   18

Interpretasi:

  • Dari 18 amatan dengan \(Y\) = 0, hanya 4 amatan yang diklasifikasikan dengan benar.

  • Dari 22 amatan dengan \(Y\) = 1, 18 amatan yang diklasifikasikan dengan benar.

3.6 Uji Kelayakan Model

Hipotesis:

\(H_0\) : Model layak

\(H_1\) : Model tidak layak

> logitgof(Y,fitted(reglog))

    Hosmer and Lemeshow test (binary model)

data:  Y, fitted(reglog)
X-squared = 13.405, df = 8, p-value = 0.09864

Interpretasi:

Berdasarkan output diatas diperoleh p-value (0.09864) yang lebih besar dari 0.05, maka terima \(H_0\). Sehingga dapat disimpulkan bahwa model yang terbentuk layak digunakan.

3.7 R-Squared

> Rsq
[1] 0.418521

Interpretasi:

Dari nilai R-squared dapat diketahui bahwa variabel independen (X1) dapat menjelaskan 41.85% potensi kelulusan.

3.8 Asumsi Linieritas Pada Logit

P-value untuk variabel interaction yang diperoleh dari output:

> 0.289
[1] 0.289

Interpretasi:

Dari output yang didapatkan diatas p-value interaction (0.289) yang lebih besar dari 0.05, keputusannya terima \(H_0\). Sehingga dapat disimpulkan bahwa terdapat hubungan linier anatar \(X_1\) dan logit dari \(Y\).

4 KESIMPULAN

Dari Hasil perhitungan analisis regresi logistik yang telah dilakukan dapat disimpulkan bahwa variabel independen (skor Graduated Record Examination) cukup berpengaruh terhadap variabel dependen (Status Kelulusan). Yang berarti jika ingin lulus dalam ujian masuk perguruan tinggi (PT) seseorang tersebut harus memimiliki skor Graduated Record Examination yang bagus.

5 DAFTAR PUSTAKA

Andayanti, Dina. 2008. Peran Statistik Dalam Pengambilan Keputusan. Seminar Nasional Aplikasi Sains dan Teknologi 2008 – IST AKPRIND Yogyakarta.

Hosmer, D.W., dan S. Lemeshow. 2000. Applied Logistic Regression. Edisi ke-2. John Wiley and Sons,Inc.Canada.

Hosmer, D.W., S. Lemeshow dan R. X. Sturdivant. 2013. Applied Logistic Regression. Edisi ke-3. John Wiley and Sons,Inc.Canada.

Gregory, D.S., Henry dan K. Bader.2018.Logistic and Linear Regression Assumptions: Violation Recognition and Control.SESUG, 247.

Achmad Efendi, Ni Wayan Surya Wardhani, Rahma Fitriani, Eni Sumarminingsih. (2020). Analisis Regresi : Teori dan Aplikasi dalam R. Malang: Universitas Brawijaya Press.