1 PENDAHULUAN
1.1 Latar Belakang
Statistika merupakan suatu cabang dari ilmu matematika dimana ilmu tersebut dapat membantu banyak dalam kehidupan. Pada ilmu statistika ditemukan banyak permasalahan dalam berbagai kasus baik dalam bidang bisnis, pendidikan, perdagangan, politik, dan sosial. Dari permasalahaan-permasalahan tersebut, statistika sangat berperan penting dalam menentukan keputusan yang akan diambil (Dina, 2008).
Regresi logistik adalah suatu metode dari analisis regresi dengan variabel respon dengan tipe biner atau kategorik. Variabel respon yang bersifat biner atau atau dikotomis terdiri dari dua kategori yang dimisalkan sebagai 0 dan 1 (Hosmer, 2013). Variabel respon ‘0’ merupakan unsur “gagal” sedangkan variabel respon ‘1’ merupakan unsur “sukses”.
1.2 Tinjauan Pustaka
1.2.1 Analisis Regresi
Analisis Regresi merupakan suatu teknik dalam statistika yang berfungsi untuk memeriksa dan memodelkan hubungan antar variabel. Pada analisis ini terdapat dua komponen yang dihubungkan, yakni variabel dependen (Y) atau variabel yang dipengaruhi dan variabel independen (X) yang memengaruhi. Model dari analisis regresi dituliskan sebagai berikut:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+\beta_n \]
Keterangan:
\(Y\)= Variabel dependen (yang dipengaruhi)
\(X_1\) = Variabel independen (yang memengaruhi)
\(\beta_0\) = Intercept
\(\beta_i\) = Koefisien regresi variabel prediktor
1.2.2 Analisis Regresi Logistik Biner
Regresi logistik merupakan suatu metode analisis satatistika untuk mendeskripsikan hubungan antara variabel terikat yang memiliki dua kategori atau lebih dengan satu atau lebih peubah bebas dengan menggunakan skala kategori atau kontinu (Hosmer, 2000). Regresi logistik terbagi menjadi tiga yaitu regresi logistik biner, regresi logistik multinomial, dan regresi logistik ordinal.
Dalam kasus ini menggunakan regresi logistik biner yang digunakan untuk menganalisis hubungan antara satu variabel dependen dan satu variabel independen. Model regresi logistik biner digunakan jika variabel dependennya menghasilkan dua kategori bernilai 0 (tidak lulus) dan 1 (lulus). Diperoleh dengan mengikuti distribusi Bernoulli sebagai berikut:
\[ f(y_i)=\pi(x_i)^{yi}(1-\pi(x_i))^{1-y_i} \]
Misalkan peluang variabel dependen untuk suatu nilai \(x\), dilambangkan \(\pi(x)\). Persamaan umum \(\pi(x)\) dilambangkan sebagai berikut:
\[ \pi_i(x)=\frac {exp(\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+...+\beta_px_{pi})}{1+exp(\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+...+\beta_px_{pi})} \]
Keterangan:
\(\pi(x_i)\) = Peluang terjadinya kategori variabel respon
\(x_{ji}\) = Variabel independen ke-j
p = Banyaknya variabel independen
\(\beta_0\) = Intercept
\(\beta_0,\beta_1,...,\beta_p\) = Koefisien regresi untuk setiap variabel independen
Untuk mempermudah estimasi parameter dalam regresi, digunakan transformasi logit dalam regresi logistik, seperti berikut:
\[ g(x)=ln[\frac{\pi(x)}{1-\pi(x)}] \]
\[ g(x)= \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p \]
1.2.3 Asumsi Linearitas Pada Logit
Asumsi linearitas pada logit dalam analisis regresi logistik merujuk pada asumsi bahwa hubungan antara variabel independen dan logit (log-odds) dari variabel dependen biner adalah linear. Asumsi linearitas menyatakan bahwa logit dari probabilitas dependen adalah fungsi linear dari variabel independen.Berikut merupakan tujuan dilakukannya asumsi linearitas pada logit:
- Akurasi Model, jika hubungan antara variabel independen dan logit tidak linear, model regresi logistik tidak akan memberikan estimasi yang akurat, yang bisa menyebabkan kesalahan prediksi.
- Validitas Inferensial, statistik uji dan inferensi yang didasarkan pada model regresi logistik mengasumsikan linearitas pada logit. Pelanggaran asumsi ini dapat membuat hasil uji statistik menjadi tidak valid.
1.3 Data
Data yang digunakan berasal dari website SCRIBD yang membahas mengenai analisis regresi logistik, dimana salah satu contoh data nya membahas tentang hubungan skor Graduated Record Examination (X1) dan status kelulusan (Y) seseorang dalam ujian masuk suatu perguruan tinggi (PT). Berikut merupakan cuplikan data yang digunakan:
> Y <- c(0,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,1,1,1,0,
+ 0,1,1,1,1,0,1,1,1,1,1,0,0,0,1,1,0,1,1,1)
> Y
[1] 0 0 0 0 1 0 0 0 0 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 0 1 1 0 1
[39] 1 1
> X1 <-c(550,460,640,640,520,560,420,620,560,580,800,460,580,700,600,685,
+ 760,800,640,605,540,760,800,645,660,560,780,600,650,660,800,660,
+ 640,620,750,620,540,725,780,760)
> X1
[1] 550 460 640 640 520 560 420 620 560 580 800 460 580 700 600 685 760 800 640
[20] 605 540 760 800 645 660 560 780 600 650 660 800 660 640 620 750 620 540 725
[39] 780 760
> data1 <- data.frame(Y,X1)
> str(data1)
'data.frame': 40 obs. of 2 variables:
$ Y : num 0 0 0 0 1 0 0 0 0 0 ...
$ X1: num 550 460 640 640 520 560 420 620 560 580 ...
> head(data1)
Y X1
1 0 550
2 0 460
3 0 640
4 0 640
5 1 520
6 0 5601.4 Tujuan
Tujuan dilakukannya analisis regresi logistik adalah untuk mengetahui pengaruh variabel independen (skor Graduated Record Examination) terhadap variabel dependen (status kelulusan).
2 SOURCE CODE
2.2 Impor Data
Berikut merupakan data pengaruh dari skor Graduate Record Examination(X1) terhadap Status Kelulusan(Y) seseorang dalam ujian masuk suatu perguruan tinggi (PT) yang akan digunakan untuk analisis regresi logistik.
> Y <- c(0,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,1,1,1,0,
+ 0,1,1,1,1,0,1,1,1,1,1,0,0,0,1,1,0,1,1,1)
> Y
[1] 0 0 0 0 1 0 0 0 0 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 0 1 1 0 1
[39] 1 1
> X1 <-c(550,460,640,640,520,560,420,620,560,580,800,460,580,700,600,685,
+ 760,800,640,605,540,760,800,645,660,560,780,600,650,660,800,660,
+ 640,620,750,620,540,725,780,760)
> X1
[1] 550 460 640 640 520 560 420 620 560 580 800 460 580 700 600 685 760 800 640
[20] 605 540 760 800 645 660 560 780 600 650 660 800 660 640 620 750 620 540 725
[39] 780 760
> data1 <- data.frame(Y,X1)
> str(data1)
'data.frame': 40 obs. of 2 variables:
$ Y : num 0 0 0 0 1 0 0 0 0 0 ...
$ X1: num 550 460 640 640 520 560 420 620 560 580 ...
> head(data1)
Y X1
1 0 550
2 0 460
3 0 640
4 0 640
5 1 520
6 0 560Keterangan:
\(Y\) = Status Kelulusan ( 1=Lulus, 0=Tidak Lulus)
\(X_1\) = Graduated Record Examination (GRE)
Sumber:
https://id.scribd.com/document/509428008/05-Analisis-Regresi-Logistik
2.3 Analisis
> #Analisis Regresi Logistik
> reglog <- glm(Y~X1, family = binomial, data = data1)
> summary(reglog)
Call:
glm(formula = Y ~ X1, family = binomial, data = data1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5612 -0.5947 0.1575 0.5600 2.3306
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -15.705221 5.211670 -3.013 0.00258 **
X1 0.025111 0.008299 3.026 0.00248 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.051 on 39 degrees of freedom
Residual deviance: 32.011 on 38 degrees of freedom
AIC: 36.011
Number of Fisher Scoring iterations: 6
>
> #Uji Signifikansi Keseluruhan Model
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-16.0053201 -27.5255525 23.0404648 0.4185287 0.4378641 0.5857845
> qchisq(0.95,8)
[1] 15.50731
>
> #R-Squared
> Rsq <- 1-(32.011/55.051)
> Rsq
[1] 0.418521
>
> #Tabel Pendugaan Parameter
> beta <- coef(reglog)
> OR_beta <- exp(beta)
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -15.70522136 1.511155e-07
X1 0.02511128 1.025429e+00
>
> #Klasifikasi Model
> yp_hat <- fitted(reglog)
> kelas <- table(Y,yp_hat >0.5)
> kelas
Y FALSE TRUE
0 14 4
1 4 18
>
> #Uji Kelayakan Model
> logitgof(Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: Y, fitted(reglog)
X-squared = 13.405, df = 8, p-value = 0.09864
>
> #Asumsi Linearitas pada Logit
> data1$log_x <- log(data1$X1)
> data1$interaction <- data1$X1 * data1$log_x
> model <- glm(Y~X1 + data1$interaction, family = binomial, data = data1)
> summary(model)
Call:
glm(formula = Y ~ X1 + data1$interaction, family = binomial,
data = data1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.56452 -0.57586 0.04195 0.45957 2.17179
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 45.18180 54.94105 0.822 0.411
X1 -0.72345 0.70208 -1.030 0.303
data1$interaction 0.10109 0.09541 1.060 0.289
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.051 on 39 degrees of freedom
Residual deviance: 30.922 on 37 degrees of freedom
AIC: 36.922
Number of Fisher Scoring iterations: 73 HASIL DAN PEMBAHASAN
3.1 Model Logistik
Berdasarkan hasil output di atas model logit yang terbentuk sebagai berikut
\[ g(x)= -15.705221 + 0.025111 X1 \]
Interpretasi:
Karena \(\beta_1\) bernilai positif, maka setiap kenaikan 1 nilai pada skor Graduate Record Examination akan meningkatkan peluang kelulusan seseorang dalam ujian masuk suatu perguruan tinggi (PT).
3.2 Uji Signifikansi Keseluruhan Model
Hipotesis:
\(H_0\) : \(\beta_1\)=\(\beta_2\)=…=\(\beta_p\)=0
\(H_1\): minimal ada satu \(\beta_j\) ≠ 0, \(j\)=1,2,…,p
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-16.0053201 -27.5255525 23.0404648 0.4185287 0.4378641 0.5857845
> qchisq(0.95,8)
[1] 15.50731Interpretasi:
Pada output diatas diperoleh nilai G2 sebesar 23,0404648 dengan nilai chisquare tabel sebesar 15,50731. Yang mengartikan bahwa nilai G2 lebih besar dari nilai chisquare sehingga dapat diputuskan tolak \(H_0\). Jadi dapat disimpulkan bahwa model signifikan.
3.3 Uji Parsial Parameter Model
P-value untuk variabel independen \(X_1\) yang diperoleh dari hasil output tersebut:
Interpretasi:
Berdasarkan output yang didapatkan di atas dapat dilihat bahwa X1(skor Graduate Record Examination) memiliki p-value kurang dari alpha 0,05, sehingga keputusan tolak \(H_0\). Jadi dapat disimpulkan bahwa skor Graduate Record Examination berpengaruh signifikan terhadap status kelulusan seseorang dalam ujian masuk suatu perguruan tinggi (PT).
3.4 Odds Ratio
Interpretasi:
Apabila skor Graduate Record Examination bertambah 1 nilai maka kecenderungan untuk lulus meningkat 1,025429 kali lipat. Artinya apabila semakin bagus skor Graduate Record Examination maka potensi untuk lulus seseorang dalam ujian masuk suatu perguruan tinggi (PT) meningkat pula.
3.5 Klasifikasi Model
Interpretasi:
Dari 18 amatan dengan \(Y\) = 0, hanya 4 amatan yang diklasifikasikan dengan benar.
Dari 22 amatan dengan \(Y\) = 1, 18 amatan yang diklasifikasikan dengan benar.
3.6 Uji Kelayakan Model
Hipotesis:
\(H_0\) : Model layak
\(H_1\) : Model tidak layak
> logitgof(Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: Y, fitted(reglog)
X-squared = 13.405, df = 8, p-value = 0.09864Interpretasi:
Berdasarkan output diatas diperoleh p-value (0.09864) yang lebih besar dari 0.05, maka terima \(H_0\). Sehingga dapat disimpulkan bahwa model yang terbentuk layak digunakan.
3.7 R-Squared
Interpretasi:
Dari nilai R-squared dapat diketahui bahwa variabel independen (X1) dapat menjelaskan 41.85% potensi kelulusan.
3.8 Asumsi Linieritas Pada Logit
P-value untuk variabel interaction yang diperoleh dari output:
Interpretasi:
Dari output yang didapatkan diatas p-value interaction (0.289) yang lebih besar dari 0.05, keputusannya terima \(H_0\). Sehingga dapat disimpulkan bahwa terdapat hubungan linier anatar \(X_1\) dan logit dari \(Y\).
4 KESIMPULAN
Dari Hasil perhitungan analisis regresi logistik yang telah dilakukan dapat disimpulkan bahwa variabel independen (skor Graduated Record Examination) cukup berpengaruh terhadap variabel dependen (Status Kelulusan). Yang berarti jika ingin lulus dalam ujian masuk perguruan tinggi (PT) seseorang tersebut harus memimiliki skor Graduated Record Examination yang bagus.
5 DAFTAR PUSTAKA
Andayanti, Dina. 2008. Peran Statistik Dalam Pengambilan Keputusan. Seminar Nasional Aplikasi Sains dan Teknologi 2008 – IST AKPRIND Yogyakarta.
Hosmer, D.W., dan S. Lemeshow. 2000. Applied Logistic Regression. Edisi ke-2. John Wiley and Sons,Inc.Canada.
Hosmer, D.W., S. Lemeshow dan R. X. Sturdivant. 2013. Applied Logistic Regression. Edisi ke-3. John Wiley and Sons,Inc.Canada.
Gregory, D.S., Henry dan K. Bader.2018.Logistic and Linear Regression Assumptions: Violation Recognition and Control.SESUG, 247.
Achmad Efendi, Ni Wayan Surya Wardhani, Rahma Fitriani, Eni Sumarminingsih. (2020). Analisis Regresi : Teori dan Aplikasi dalam R. Malang: Universitas Brawijaya Press.