1 PENDAHULUAN

1.1 Latar Belakang

Pengalaman kerja seseorang pelamar dapat dilihat dari lama waktu bekerja di perusahaan sebelumnya. Selain pengalaman kerja, faktor pendidikan juga sering menjadi pertimbangan perusahaan dalam proses seleksi karyawan.

Dalam analisis statistik, hubungan antara variabel dapat dipelajari menggunakan analisis regresi. Pada umumnya regresi menggunakan variabel respon berbentuk kuantitatif. Namun dalam banyak kasus, variabel respon berbentuk kualitatif atau kategorik, misalnya diterima atau tidak diterima dalam suatu pekerjaan.

Model yang digunakan untuk menganalisis variabel respon biner adalah regresi logistik biner. Regresi logistik biner digunakan untuk memodelkan hubungan antara satu variabel respon dikotomi dengan satu atau lebih variabel prediktor.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi

Analisis regresi merupakan metode statistik yang digunakan untuk memodelkan hubungan antara variabel respon dengan satu atau lebih variabel prediktor. Model regresi linear secara umum dinyatakan sebagai:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \varepsilon \]

Keterangan:

  • \(Y\) : variabel respon atau variabel dependen
  • \(X_1, X_2, ..., X_p\) : variabel prediktor atau variabel independen
  • \(\beta_0\) : intercept atau konstanta model
  • \(\beta_1, \beta_2, ..., \beta_p\) : koefisien regresi yang menunjukkan pengaruh masing-masing variabel prediktor terhadap variabel respon
  • \(\varepsilon\) : galat (error) yang menyatakan faktor lain di luar model

Namun ketika variabel respon bersifat kategorik biner, model regresi linear tidak lagi sesuai sehingga digunakan model regresi logistik.

2.2 Analisis Regresi Logistik Biner

Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kategori, misalnya 0 dan 1. Model ini digunakan untuk memodelkan peluang terjadinya suatu kejadian berdasarkan variabel prediktor.

Misalkan:

\[ \pi(x) = P(Y=1|X) \]

Keterangan:

  • \(\pi(x)\) : probabilitas atau peluang bahwa kejadian \(Y=1\) terjadi
  • \(Y\) : variabel respon biner
  • \(X\) : variabel prediktor

Model regresi logistik dinyatakan sebagai:

\[ \pi(x) = \frac{e^{(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p)}} {1 + e^{(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p)}} \]

Keterangan:

  • \(\pi(x)\) : probabilitas kejadian \(Y=1\)
  • \(e\) : bilangan eksponensial (sekitar 2,71828)
  • \(\beta_0\) : intercept model regresi logistik
  • \(\beta_1, \beta_2, ..., \beta_p\) : koefisien regresi logistik
  • \(x_1, x_2, ..., x_p\) : variabel prediktor

Transformasi logit dari model tersebut adalah:

\[ \ln \left(\frac{\pi(x)}{1-\pi(x)}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p \]

Keterangan:

  • \(\ln\left(\frac{\pi(x)}{1-\pi(x)}\right)\) : fungsi logit yang merupakan transformasi logaritma dari odds
  • \(\frac{\pi(x)}{1-\pi(x)}\) : odds atau perbandingan peluang kejadian dengan tidak terjadinya kejadian
  • \(\beta_0\) : konstanta model
  • \(\beta_1, \beta_2, ..., \beta_p\) : parameter model yang menunjukkan pengaruh variabel prediktor terhadap logit

Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE), yaitu metode estimasi parameter yang memaksimalkan fungsi likelihood berdasarkan data yang diamati.

3 SOURCE CODE

3.1 Import Data

data <- read_excel("C:/Users/Lutfi/Downloads/data_regresi_logistik.xlsx")
head(data)
## # A tibble: 6 × 4
##   Education Experience   Sex Hired
##       <dbl>      <dbl> <dbl> <dbl>
## 1         6          6     1     1
## 2         6          3     1     1
## 3         8          3     0     1
## 4         8         10     0     1
## 5         4          5     1     1
## 6         6          1     1     1

3.2 Struktur Data

str(data)
## tibble [40 × 4] (S3: tbl_df/tbl/data.frame)
##  $ Education : num [1:40] 6 6 8 8 4 6 8 4 6 6 ...
##  $ Experience: num [1:40] 6 3 3 10 5 1 5 10 12 2 ...
##  $ Sex       : num [1:40] 1 1 0 0 1 1 1 1 0 0 ...
##  $ Hired     : num [1:40] 1 1 1 1 1 1 1 1 1 1 ...
summary(data)
##    Education      Experience          Sex            Hired    
##  Min.   :4.00   Min.   : 0.000   Min.   :0.000   Min.   :0.0  
##  1st Qu.:4.00   1st Qu.: 1.000   1st Qu.:0.000   1st Qu.:0.0  
##  Median :6.00   Median : 3.000   Median :1.000   Median :0.5  
##  Mean   :5.65   Mean   : 4.225   Mean   :0.575   Mean   :0.5  
##  3rd Qu.:6.00   3rd Qu.: 6.000   3rd Qu.:1.000   3rd Qu.:1.0  
##  Max.   :8.00   Max.   :12.000   Max.   :1.000   Max.   :1.0

3.3 Asumsi Non-Multikolinearitas

model_vif <- lm(Hired ~ Education + Experience + Sex, data = data)

vif(model_vif)
##  Education Experience        Sex 
##   1.040014   1.025556   1.063484

Jika nilai VIF < 10 maka tidak terjadi multikolinieritas.

3.4 Analisis Regresi Logistik

model_logit <- glm(Hired ~ Education + Experience + Sex,
                   data = data,
                   family = binomial)

summary(model_logit)
## 
## Call:
## glm(formula = Hired ~ Education + Experience + Sex, family = binomial, 
##     data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -5.6999     2.1282  -2.678   0.0074 **
## Education     0.6727     0.2909   2.312   0.0208 * 
## Experience    0.3115     0.1223   2.547   0.0109 * 
## Sex           1.0378     0.8469   1.225   0.2204   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 55.452  on 39  degrees of freedom
## Residual deviance: 40.975  on 36  degrees of freedom
## AIC: 48.975
## 
## Number of Fisher Scoring iterations: 4

3.4.1 Uji Signifikansi Keseluruhan Model

anova(model_logit, test="Chisq")
## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Hired
## 
## Terms added sequentially (first to last)
## 
## 
##            Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                          39     55.452            
## Education   1   5.2952        38     50.157 0.021385 * 
## Experience  1   7.5682        37     42.588 0.005941 **
## Sex         1   1.6136        36     40.975 0.203989   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3.4.2 Uji Parsial Parameter Model

summary(model_logit)
## 
## Call:
## glm(formula = Hired ~ Education + Experience + Sex, family = binomial, 
##     data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -5.6999     2.1282  -2.678   0.0074 **
## Education     0.6727     0.2909   2.312   0.0208 * 
## Experience    0.3115     0.1223   2.547   0.0109 * 
## Sex           1.0378     0.8469   1.225   0.2204   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 55.452  on 39  degrees of freedom
## Residual deviance: 40.975  on 36  degrees of freedom
## AIC: 48.975
## 
## Number of Fisher Scoring iterations: 4

3.4.3 R-Square

pR2(model_logit)
## fitting null model for pseudo-r2
##         llh     llhNull          G2    McFadden        r2ML        r2CU 
## -20.4874054 -27.7258872  14.4769637   0.2610730   0.3036648   0.4048864

3.4.4 Odds Ratio

exp(coef(model_logit))
## (Intercept)   Education  Experience         Sex 
## 0.003346298 1.959589102 1.365485969 2.823123101

3.4.5 Membentuk Klasifikasi

prob <- predict(model_logit, type="response")

prediksi <- ifelse(prob > 0.5,1,0)

table(Prediksi=prediksi,
      Aktual=data$Hired)
##         Aktual
## Prediksi  0  1
##        0 16  6
##        1  4 14

3.4.6 Uji Kelayakan Model

hoslem.test(data$Hired, fitted(model_logit))
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  data$Hired, fitted(model_logit)
## X-squared = 4.5284, df = 8, p-value = 0.8066

4 Hasil dan Pembahasan

4.1 Asumsi Non-Multikolinearitas

4.1.1 Output VIF

\[ \begin{aligned} \text{Education} &= 1.040014 \\ \text{Experience} &= 1.025556 \\ \text{Sex} &= 1.063484 \end{aligned} \]

4.1.2 Kesimpulan

Semua nilai Variance Inflation Factor (VIF) lebih kecil dari 10 sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel independen. Dengan demikian asumsi non-multikolinearitas pada model regresi logistik telah terpenuhi.

4.2 Uji Signifikansi Keseluruhan Model

4.2.1 Hipotesis

\[ H_0 : \beta_1 = \beta_2 = \beta_3 = 0 \]

\[ H_1 : \text{minimal terdapat satu } \beta_i \ne 0, \; i=1,2,3 \]

4.2.2 Statistik Uji dan Titik Kritis

Berdasarkan output analisis deviance diperoleh:

\[ G^2 = 55.452 - 40.975 = 14.477 \]

Dengan derajat bebas:

\[ df = 3 \]

Nilai kritis chi-square:

\[ \chi^2_{(0.05,3)} = 7.815 \]

4.2.3 Keputusan

\[ G^2 > \chi^2_{(0.05,3)} \]

\[ 14.477 > 7.815 \]

Maka keputusan yang diambil adalah tolak \(H_0\).

4.2.4 Interpretasi

Pada taraf signifikansi \(\alpha = 0.05\), dapat disimpulkan bahwa secara simultan variabel Education, Experience, dan Sex berpengaruh terhadap peluang seseorang diterima bekerja.

4.3 Uji Parsial Parameter Model

4.3.1 Hipotesis

\[ H_0 : \beta_i = 0 \]

\[ H_1 : \beta_i \ne 0 \]

dengan \(i = 1,2,3\).

4.3.2 Taraf Nyata

\[ \alpha = 0.05 \]

4.3.3 Tabel Keputusan Uji Parsial

Variabel p-value α Keputusan Keterangan
Education 0.0208 0.05 Tolak \(H_0\) Signifikan
Experience 0.0109 0.05 Tolak \(H_0\) Signifikan
Sex 0.2204 0.05 Gagal Tolak \(H_0\) Tidak Signifikan

4.3.4 Kesimpulan

Pada taraf signifikansi \(0.05\), dapat disimpulkan bahwa variabel Education dan Experience berpengaruh signifikan terhadap peluang diterima bekerja. Sementara itu variabel Sex tidak berpengaruh signifikan terhadap peluang diterima bekerja.

4.4 Model Regresi Logistik

Model regresi logistik yang diperoleh adalah:

\[ \text{logit}(\pi(x)) = -5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3 \]

dengan:

\[ \begin{aligned} X_1 &= \text{Education} \\ X_2 &= \text{Experience} \\ X_3 &= \text{Sex} \end{aligned} \]

Model probabilitasnya adalah:

\[ \pi(x)= \frac{\exp(-5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3)} {1+\exp(-5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3)} \]

4.5 R-Square

Nilai McFadden’s R-square dari model adalah:

\[ R^2_{McFadden} = 0.261073 \]

Hal ini menunjukkan bahwa model mampu menjelaskan sekitar:

\[ 26.11\% \]

variasi peluang diterimanya pelamar kerja, sedangkan sisanya dijelaskan oleh faktor lain di luar model.

4.6 Odds Ratio

4.6.1 Output OR

\[ \begin{aligned} \text{Intercept} &= 0.003346 \\ \text{Education} &= 1.959589 \\ \text{Experience} &= 1.365486 \\ \text{Sex} &= 2.823123 \end{aligned} \]

4.6.2 Interpretasi

Education = 1.959589 menunjukkan bahwa setiap peningkatan satu unit tingkat pendidikan akan meningkatkan peluang seseorang untuk diterima bekerja sekitar 1.96 kali, dengan asumsi variabel lain tetap.

Experience = 1.365486 menunjukkan bahwa setiap peningkatan satu unit pengalaman kerja akan meningkatkan peluang diterima bekerja sekitar 1.37 kali, dengan asumsi variabel lain tetap.

Sex = 2.823123 menunjukkan bahwa pelamar dengan kategori Sex = 1 memiliki peluang sekitar 2.82 kali lebih besar untuk diterima dibandingkan dengan kategori lainnya, dengan asumsi variabel lain konstan.

4.7 Membentuk Klasifikasi

4.7.1 Tabel Klasifikasi (Confusion Matrix)

Aktual / Prediksi Diterima Tidak Diterima Total
Diterima 16 4 20
Tidak Diterima 6 14 20
Total 22 18 40

4.7.2 Perhitungan Akurasi

\[ \begin{aligned} \text{Prediksi Benar} &= 16 + 14 = 30 \\\\ \text{Total Data} &= 40 \end{aligned} \]

Sehingga tingkat akurasi model adalah

\[ \text{Akurasi} = \frac{30}{40} = 0.75 \]

atau sekitar

\[ 75\% \]

4.7.3 Kesimpulan

Model mampu mengklasifikasikan data dengan tingkat akurasi sebesar 75%.

4.8 Uji Kelayakan Model

4.8.1 Hipotesis

\[ H_0 : \text{Model layak} \]

\[ H_1 : \text{Model tidak layak} \]

4.8.2 Taraf Signifikansi

\[ \alpha = 0.05 \]

4.8.3 Nilai p

\[ p\text{-value} = 0.8066 \]

4.8.4 Keputusan

\[ p\text{-value} > \alpha \]

Sehingga gagal menolak \(H_0\).

4.8.5 Kesimpulan

Pada taraf signifikansi \(0.05\), dapat disimpulkan bahwa model regresi logistik yang terbentuk merupakan model yang layak (good fit) untuk digunakan dalam analisis.

5 KESIMPULAN

Berdasarkan hasil analisis regresi linier berganda yang telah dilakukan terhadap variabel Education, Experience, dan Sex terhadap variabel Income, maka dapat diperoleh beberapa kesimpulan sebagai berikut:

  1. Model regresi linier berganda yang digunakan dalam penelitian ini telah memenuhi asumsi klasik, yaitu tidak terjadi multikolinearitas antar variabel independen. Hal ini dibuktikan dengan nilai Variance Inflation Factor (VIF) pada setiap variabel yang lebih kecil dari 10, sehingga model regresi yang digunakan dapat dikatakan layak untuk dianalisis lebih lanjut.

  2. Hasil analisis regresi menunjukkan bahwa variabel Education dan Experience memiliki pengaruh positif terhadap Income. Artinya, semakin tinggi tingkat pendidikan dan semakin lama pengalaman kerja seseorang, maka pendapatan yang diperoleh cenderung meningkat.

  3. Variabel Sex juga dimasukkan dalam model regresi untuk melihat pengaruh perbedaan jenis kelamin terhadap pendapatan. Hasil analisis menunjukkan bahwa variabel ini memiliki pengaruh terhadap Income sesuai dengan hasil estimasi model regresi yang diperoleh.

  4. Secara keseluruhan, model regresi linier berganda yang digunakan dalam penelitian ini mampu menjelaskan hubungan antara variabel independen (Education, Experience, dan Sex) terhadap variabel dependen (Income).

6 DAFTAR PUSTAKA

Adnyai, N. L., & Dewi, A. S. (2019). Pengaruh pengalaman kerja, prestasi kerja dan pelatihan terhadap pengembangan karier karyawan. E-Jurnal Manajemen, VIII, 4073–4101.

Anggraeni, Y., & Zain, I. (2015). Pemodelan regresi logistik biner terhadap peminat negeri (SBMPTN) 2014. Jurnal Sains dan Seni ITS, 116.

Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. New York: John Wiley & Sons.

Misna, Rais, & Utami, I. T. (2018). Analisis regresi logistik biner untuk mengklasifikasi penderita hipertensi berdasarkan kebiasaan merokok di RSU Mokopido Toli-Toli. Natural Science: Journal of Science and Technology, 344–345.

Wardhani, L. R., Wilandar, Y., & Wuryandari, T. (2015). Analisis keputusan konsumen memilih bahan bakar minyak (BBM) menggunakan model regresi logistik biner dan model log-linear (Studi kasus SPBU 44.502.10 Ketileng Semarang). Jurnal Gaussian, 928.