Penerapan Analisis Regresi Logistik untuk Mengetahui Seberapa Besar Peluang Seseorang Dapat Diterima Bekerja di PT Makmur Jaya

Celia Sianipar

1 Juni 2023


Library:

> library(readr)
> library(generalhoslem)
> library(pscl)
> library(readxl)

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi merupakan ilmu yang mempelajari tentang suatu hubungan fungsional antara variabel-variabel yang dinyatakan dalam suatu bentuk persamaan matematik. Pada analisis regresi, variabel tersebut dibedakan kedalam dua jenis variabel yaitu variabel respon (Y) dan variabel prediktor (X). Pada umumnya, analisis regresi sering menggunakan data kuantitatif sebagai variabel responnya. Akan tetapi dalam kenyataannya banyak ditemukan kasus dengan variabel responnya berupa data kualitatif yang berbentuk biner, misalnya peluang tidak atau diterimanya bekerja dan pengambilan keputusan (ya atau tidak). Dalam analisis regresi, hubungan antara variabel respon bersifat kualitatif sedangkan variabel prediktornya bisa bersifat kuantitatif, kualitatif atau gabungan keduanya yang dapat digambarkan ke dalam suatu model yang dikenal sebagai model respon biner. Sebagai ilustrasi, model respon biner ini dapat ditemukan pada kasus seperti berikut ini. Peneliti ingin mengetahui faktor apa saja yang mempengaruhi seseorang dapat diterima di PT Makmur Jaya. Penelitian dilakukan dengan mengambil sampel sebesar 40 orang dan menggunakan analisis regresi logistik. Dengan variabel prediktornya adalah lama pendidikan terakhir, lama pengalaman kerja, jenis kelamin dan variabel responnya adalah diterima atau tidaknya dalam pekerjaan.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi Logistik

Regresi logistik merupakan metode yang berfungsi untuk mencari hubungan variabel respon dengan variabel prediktor, dimana pada variabel respon bersifat kategorik dan memiliki skala nominal dua kategori disebut dengan dichotomus, atau memiliki skala nominal lebih dari dua kategori disebut dengan polychotomus (Agresti, 2002). Model regresi logistik yang variabel responnya bersaka kategori biner atau memiliki dua kategori bernilai 0 dan disebut dengan regresi logistik biner (Agresti, 2013). Maka model regresi logistik dengan k variabel yaitu :

\[ \pi(x)=\frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{k}x_{k})}{1+exp(beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})} \]

2.2 Asumsi Multikolinieritas

Multikolinieritas adalah suatu kejadian dimana pada model regresi ditemukan adanya korelasi antar variabel independen. Model regresi yang baik seharusnya tidak terjadi korelasi antara variabel independen. Pengujian ada tidaknya gejala multikolinieritas salah satunya dilakukan dengan memperhatikan nilai variance inflation factor (VIF). Apabila nilai VIF berada di bawah 10, maka dapat diambil kesimpulan bahwa model regresi tersebut tidak terdapat multikolinieritas (Santoso, 2010)

2.3 Uji Signifikansi Keseluruhan Model

Uji Signifikansi Model adalah teknik untuk menguji apakah model regresi yang telah dibuat menunjukkan efek yang signifikan secara statistik pada variabel dependen. Uji signifikansi model juga dapat menguji apakah model regresi memenuhi persyaratan asumsi untuk analisis regresi.

2.4 Uji Ketepatan Klasifikasi

Evaluasi ketepatan klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi berdasarkan kriteria atau ukuran yang digunakan (Johnson & Winchern, 2007). APER (Apparent Error Ratio) merupakan suatu nilai yang digunakan untuk melihat peluang kesalahan dalam mengklasifikasikan objek, dengan perhitungan. Uji Ketepatan Klasifikasi adalah teknik untuk mengukur seberapa akurat model klasifikasi dengan membandingkan hasil klasifikasi dari model regresi dengan data yang sebenarnya. Teknik ini sering digunakan untuk model regresi logistik.

2.5 Uji Parameter

Uji parameter adalah teknik statistik untuk melihat signifikansi dari koefisien regresi yang dihasilkan dalam analisis regresi. Uji ini melibatkan perhitungan nilai t-statistik dan p-value untuk menentukan apakah koefisien regresi yang dihasilkan signifikan atau tidak.

2.5.1 Uji Simultan

Uji Simultan adalah teknik statistik yang digunakan untuk menguji secara bersama-sama pengaruh beberapa variabel independen terhadap satu variabel dependen dalam analisis regresi.

2.5.2 Uji Parsial

Uji Parsial adalah teknik statistik yang digunakan untuk menguji secara terpisah pengaruh masing-masing variabel independen terhadap satu variabel dependen dalam analisis regresi.

2.6 Odds Ratio

Odds Ratio (OR) adalah salah satu ukuran tingkat resiko yang digunakan dalam menginterpretasikan koefisien parameter pada regresi logistik. Odds ratio digunakan untuk menentukan kecenderungan atau hubungan fungsional antara variabel prediktor dengan variabel respon serta menunjukkan pengaruh perubahan nilai pada variabel yang bersangkutan. (Hosmer & Lemeshow, 2000). Odds Ratio juga dapat diartikan sebagai ukuran yang digunakan dalam analisis regresi logistik yang mengukur kekuatan hubungan antara variabel independen dan variabel dependen. Odds Ratio dibagi Dalam model regresi logistik menjadi dua jenis yaitu untuk variabel kategorial dan variabel numerik.

3 SOURCE CODE

3.1 Library

> library(readr)
> library(generalhoslem)
> library(pscl)
> library(readxl)
> library(rmarkdown)

3.2 Input Data

> filereglog <-read_excel("D:/SEMESTER 4/Komputasi Statistika/praktikum/data mini project.xlsx")
> str(filereglog)
tibble [40 × 5] (S3: tbl_df/tbl/data.frame)
 $ Pelamar   : num [1:40] 1 2 3 4 5 6 7 8 9 10 ...
 $ Education : num [1:40] 6 6 8 8 4 6 8 4 6 6 ...
 $ Experience: num [1:40] 6 3 3 10 5 1 5 10 12 2 ...
 $ Sex       : num [1:40] 1 1 0 0 1 1 1 1 0 0 ...
 $ Hired     : num [1:40] 1 1 1 1 1 1 1 1 1 1 ...
> Y <- as.factor(filereglog$Hired)
> X1 <- filereglog$Education
> X2 <- filereglog$Experience
> X3 <- as.factor(filereglog$Sex)
> str(Y)
 Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...
>  library(rmarkdown)
>  data_log<-paged_table(data.frame(X1 ,X2 , X3, Y))
>  data_log

3.3 Asumsi Nonmultikolinieritas

> reg1 <- lm(X1~X2+X3, data=data_log)
> summary(reg1)

Call:
lm(formula = X1 ~ X2 + X3, data = data_log)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.0352 -1.4021  0.0161  0.6343  2.6407 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  5.958230   0.511172  11.656    6e-14 ***
X2           0.008555   0.069735   0.123    0.903    
X31         -0.598915   0.509100  -1.176    0.247    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.572 on 37 degrees of freedom
Multiple R-squared:  0.03847,   Adjusted R-squared:  -0.0135 
F-statistic: 0.7403 on 2 and 37 DF,  p-value: 0.4839
> R2_1 <- 1/(1-0.03847)
> R2_1
[1] 1.040009
> 
> reglog2 <- lm(X2~X1+X3, data =data_log)
> summary(reglog2)

Call:
lm(formula = X2 ~ X1 + X3, data = data_log)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7873 -2.8111 -0.8348  2.1462  7.1176 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  4.59718    2.49213   1.845   0.0731 .
X1           0.04753    0.38741   0.123   0.9030  
X31         -1.11429    1.20837  -0.922   0.3624  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.705 on 37 degrees of freedom
Multiple R-squared:  0.02492,   Adjusted R-squared:  -0.02779 
F-statistic: 0.4728 on 2 and 37 DF,  p-value: 0.627
> R2_2 <- 1/(1-0.02492)
> R2_2
[1] 1.025557
> 
> reglog3 <- glm(X3~X1+X2, family = binomial, data =data_log)
> pR2(reglog3)
fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-26.06056951 -27.27418435   2.42722968   0.04449683   0.05887635   0.07910410 
> R2_3 <- 1/(1-0.05887635)
> R2_3
[1] 1.06256

3.4 Analisis Regresi Logistik

> reglog<-glm(Y~X1+X2+X3,family=binomial,data=data_log)
> reglog

Call:  glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_log)

Coefficients:
(Intercept)           X1           X2          X31  
    -5.6999       0.6727       0.3115       1.0378  

Degrees of Freedom: 39 Total (i.e. Null);  36 Residual
Null Deviance:      55.45 
Residual Deviance: 40.97    AIC: 48.97

3.5 Uji Parameter

> #Uji Simultan
> pR2(reglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-20.4874054 -27.7258872  14.4769637   0.2610730   0.3036648   0.4048864 
> qchisq(0.95,2)
[1] 5.991465
> 
> #Uji Parsial
> summary(reglog)

Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_log)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  -5.6999     2.1282  -2.678   0.0074 **
X1            0.6727     0.2909   2.312   0.0208 * 
X2            0.3115     0.1223   2.547   0.0109 * 
X31           1.0378     0.8469   1.225   0.2204   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 55.452  on 39  degrees of freedom
Residual deviance: 40.975  on 36  degrees of freedom
AIC: 48.975

Number of Fisher Scoring iterations: 4
> 
> #Koefisien Determinasi
> Rsq<-1-(40.975/55.452)
> Rsq
[1] 0.2610726

3.6 Odds Ratio

> OR_beta<-exp(coef(reglog))
> OR_beta
(Intercept)          X1          X2         X31 
0.003346298 1.959589102 1.365485969 2.823123101 

3.7 Pengujian Kesesuaian Model

> #Tabel Klasifikasi
> yp_hat<-fitted(reglog)
> data_log$yp_hat<-yp_hat
> class<-table(data_log$Y,data_log$yp_hat>0.5)
> class
   
    FALSE TRUE
  0    16    4
  1     6   14
> 
> 
> # Uji Kelayakan Model
> 
> logitgof(data_log$Y,fitted(reglog))

    Hosmer and Lemeshow test (binary model)

data:  data_log$Y, fitted(reglog)
X-squared = 4.5284, df = 8, p-value = 0.8066

4 HASIL DAN PEMBAHASAN

4.1 Interpretasi Parameter

Berdasarkan hasil perhitungan diatas diperoleh model regresi seperti berikut: \[ g(X)=-5.6999 + 0.6727X_{1} + 0.3115X_{2} + 1.0378X_{3} \] Untuk interpretasi parameter dapat diinterpretasikan melalui hasil perhitungan odds ratio, sebagai berikut:

  • 0.003346298 artinya bahwa ketika nilai seluruh variabel prediktor bernilai 0 maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan bernilai 0.003346298

  • 1.959589102 artinya adalah ketika nilai variabel lama pendidikan meningkat 1 satuan dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 1.959589102 kali.

  • 1.365485969 artinya adalah ketika nilai variabel lama pengalaman kerja meningkat 1 satuan dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 0.3115 kali.

  • 2.823123101 artinya adalah ketika nilai variabel jenis kelamin bernilai 1 dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 2.823123101 kali.

4.2 Pengaruh Variabel

4.2.1 Uji Simultan

Dari hasil uji simultan didapatkan nilai rasio likelihood sebesar 14.4769637 dan nilai chi square tabelnya adalah 5.991465. Jika dibandingkan maka 14.4769637 > 5.991465, maka tolak Ho. Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa ketiga variabel prediktor berpengaruh secara simultan variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya

4.2.2 Uji Parsial

  1. Variabel lama pendidikan terakhir

P_value = 0.0208 p_value(0.0208)< alpha(0.05), maka tolak Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel lama pendidikan terakhir berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya

  1. Variabel lama pengalaman kerja

P_value = 0.0109 p_value(0.0109)< alpha(0.05), maka tolak Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel lama pengalaman kerja berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya

  1. Variabel jenis kelamin

P_value = 0.2204 p_value(0.2204) > alpha(0.05), maka terima Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel jenis kelamin tidak berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya

4.3 Koefisien Determinasi

Berdasarkan nilai koefisien determinasi yang diperoleh yaitu 0.2610726 dapat diartikan bahwa ketiga variabel prediktor mampu menjelaskan 26.1% variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya dan 73.9% lainnya dijelaskan oleh variabel lain di luar model yang tidak dijelaskan.

4.4 Pengujian Kecocokan Model

Dari hasil tabel klasifikasi yang sudah dicari dapat dilihat bahwa model tersebut cocok dalam menggambarkan data adalah sebesar (16+14)/40 = 0.75 atau sebesar 75%. Angka tersebut dapat dibilang sebagai angka yang cukup besar untuk tingkat kecocokan model.

Untuk mengetahui sudah sesuai atau belum sesuainya suatu model dapat menggunakan uji Hosmer & Lemeshow. Dari hasil perhitungan yang ada dapat dikatakan bahwa nilai p-value (0.8066) > (0.05) maka dapat diputuskan terima H0 sehingga dapat disimpulkan bahwa model tersebut sudah cukup untuk menggambarkan data.

5 Kesimpulan

Berdasarkan hasil pengujian hasil analisis regresi logistik yang sudah dilakukan dapat disimpulkan bahwa terdapat 2 variabel yang berpegaruh secara signifikan terhadap kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya, yaitu variabel lama pendidikan terakhir dan variabel lama pengalaman kerja. Sedangkan variabel jenis kelamin tidak berpengaruh secara signifikan terhadap kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya

6 Daftar Pustaka

  • Pemodelan Dengan Regresi Logistik. “http://data.fmipa.unand.ac.id/matematika/file_bahankuliah/PEMODELAN%20DENGAN%20REGRESI%20LOGISTIK.pdf,26 Mei 2023
  • Field, A. (2013). Discovering statistics using IBM SPSS statistics. London: SAGE Publications Ltd.
  • Gujarati, D. N., & Porter, D. C. (2009). Basic econometrics (5th ed.). New York: McGraw-Hill.
  • Hosmer, D.W., Lemeshow, S., & Sturdivant, R.X. (2013). Applied logistic regression (3rd ed.). Hoboken, NJ: John Wiley & Sons.
  • Wooldridge, J. M. (2013). Introductory econometrics: A modern approach (5th ed.). Mason, OH: South-Western.