Pengalaman kerja seseorang pelamar dapat dilihat dari lama waktu bekerja di perusahaan sebelumnya. Selain pengalaman kerja, faktor pendidikan juga sering menjadi pertimbangan perusahaan dalam proses seleksi karyawan.
Dalam analisis statistik, hubungan antara variabel dapat dipelajari menggunakan analisis regresi. Pada umumnya regresi menggunakan variabel respon berbentuk kuantitatif. Namun dalam banyak kasus, variabel respon berbentuk kualitatif atau kategorik, misalnya diterima atau tidak diterima dalam suatu pekerjaan.
Model yang digunakan untuk menganalisis variabel respon biner adalah regresi logistik biner. Regresi logistik biner digunakan untuk memodelkan hubungan antara satu variabel respon dikotomi dengan satu atau lebih variabel prediktor.
Analisis regresi merupakan metode statistik yang digunakan untuk memodelkan hubungan antara variabel respon dengan satu atau lebih variabel prediktor. Model regresi linear secara umum dinyatakan sebagai:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \varepsilon \]
Keterangan:
Namun ketika variabel respon bersifat kategorik biner, model regresi linear tidak lagi sesuai sehingga digunakan model regresi logistik.
Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kategori, misalnya 0 dan 1. Model ini digunakan untuk memodelkan peluang terjadinya suatu kejadian berdasarkan variabel prediktor.
Misalkan:
\[ \pi(x) = P(Y=1|X) \]
Keterangan:
Model regresi logistik dinyatakan sebagai:
\[ \pi(x) = \frac{e^{(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p)}} {1 + e^{(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p)}} \]
Keterangan:
Transformasi logit dari model tersebut adalah:
\[ \ln \left(\frac{\pi(x)}{1-\pi(x)}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p \]
Keterangan:
Parameter model diestimasi menggunakan metode Maximum Likelihood Estimation (MLE), yaitu metode estimasi parameter yang memaksimalkan fungsi likelihood berdasarkan data yang diamati.
data <- read_excel("C:/Users/Lutfi/Downloads/data_regresi_logistik.xlsx")
head(data)
## # A tibble: 6 × 4
## Education Experience Sex Hired
## <dbl> <dbl> <dbl> <dbl>
## 1 6 6 1 1
## 2 6 3 1 1
## 3 8 3 0 1
## 4 8 10 0 1
## 5 4 5 1 1
## 6 6 1 1 1
str(data)
## tibble [40 × 4] (S3: tbl_df/tbl/data.frame)
## $ Education : num [1:40] 6 6 8 8 4 6 8 4 6 6 ...
## $ Experience: num [1:40] 6 3 3 10 5 1 5 10 12 2 ...
## $ Sex : num [1:40] 1 1 0 0 1 1 1 1 0 0 ...
## $ Hired : num [1:40] 1 1 1 1 1 1 1 1 1 1 ...
summary(data)
## Education Experience Sex Hired
## Min. :4.00 Min. : 0.000 Min. :0.000 Min. :0.0
## 1st Qu.:4.00 1st Qu.: 1.000 1st Qu.:0.000 1st Qu.:0.0
## Median :6.00 Median : 3.000 Median :1.000 Median :0.5
## Mean :5.65 Mean : 4.225 Mean :0.575 Mean :0.5
## 3rd Qu.:6.00 3rd Qu.: 6.000 3rd Qu.:1.000 3rd Qu.:1.0
## Max. :8.00 Max. :12.000 Max. :1.000 Max. :1.0
model_vif <- lm(Hired ~ Education + Experience + Sex, data = data)
vif(model_vif)
## Education Experience Sex
## 1.040014 1.025556 1.063484
Jika nilai VIF < 10 maka tidak terjadi multikolinieritas.
model_logit <- glm(Hired ~ Education + Experience + Sex,
data = data,
family = binomial)
summary(model_logit)
##
## Call:
## glm(formula = Hired ~ Education + Experience + Sex, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.6999 2.1282 -2.678 0.0074 **
## Education 0.6727 0.2909 2.312 0.0208 *
## Experience 0.3115 0.1223 2.547 0.0109 *
## Sex 1.0378 0.8469 1.225 0.2204
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 55.452 on 39 degrees of freedom
## Residual deviance: 40.975 on 36 degrees of freedom
## AIC: 48.975
##
## Number of Fisher Scoring iterations: 4
anova(model_logit, test="Chisq")
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Hired
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 39 55.452
## Education 1 5.2952 38 50.157 0.021385 *
## Experience 1 7.5682 37 42.588 0.005941 **
## Sex 1 1.6136 36 40.975 0.203989
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(model_logit)
##
## Call:
## glm(formula = Hired ~ Education + Experience + Sex, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.6999 2.1282 -2.678 0.0074 **
## Education 0.6727 0.2909 2.312 0.0208 *
## Experience 0.3115 0.1223 2.547 0.0109 *
## Sex 1.0378 0.8469 1.225 0.2204
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 55.452 on 39 degrees of freedom
## Residual deviance: 40.975 on 36 degrees of freedom
## AIC: 48.975
##
## Number of Fisher Scoring iterations: 4
pR2(model_logit)
## fitting null model for pseudo-r2
## llh llhNull G2 McFadden r2ML r2CU
## -20.4874054 -27.7258872 14.4769637 0.2610730 0.3036648 0.4048864
exp(coef(model_logit))
## (Intercept) Education Experience Sex
## 0.003346298 1.959589102 1.365485969 2.823123101
prob <- predict(model_logit, type="response")
prediksi <- ifelse(prob > 0.5,1,0)
table(Prediksi=prediksi,
Aktual=data$Hired)
## Aktual
## Prediksi 0 1
## 0 16 6
## 1 4 14
hoslem.test(data$Hired, fitted(model_logit))
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: data$Hired, fitted(model_logit)
## X-squared = 4.5284, df = 8, p-value = 0.8066
\[ \begin{aligned} \text{Education} &= 1.040014 \\ \text{Experience} &= 1.025556 \\ \text{Sex} &= 1.063484 \end{aligned} \]
Semua nilai Variance Inflation Factor (VIF) lebih kecil dari 10 sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel independen. Dengan demikian asumsi non-multikolinearitas pada model regresi logistik telah terpenuhi.
\[ H_0 : \beta_1 = \beta_2 = \beta_3 = 0 \]
\[ H_1 : \text{minimal terdapat satu } \beta_i \ne 0, \; i=1,2,3 \]
Berdasarkan output analisis deviance diperoleh:
\[ G^2 = 55.452 - 40.975 = 14.477 \]
Dengan derajat bebas:
\[ df = 3 \]
Nilai kritis chi-square:
\[ \chi^2_{(0.05,3)} = 7.815 \]
\[ G^2 > \chi^2_{(0.05,3)} \]
\[ 14.477 > 7.815 \]
Maka keputusan yang diambil adalah tolak \(H_0\).
Pada taraf signifikansi \(\alpha = 0.05\), dapat disimpulkan bahwa secara simultan variabel Education, Experience, dan Sex berpengaruh terhadap peluang seseorang diterima bekerja.
\[ H_0 : \beta_i = 0 \]
\[ H_1 : \beta_i \ne 0 \]
dengan \(i = 1,2,3\).
\[ \alpha = 0.05 \]
| Variabel | p-value | α | Keputusan | Keterangan |
|---|---|---|---|---|
| Education | 0.0208 | 0.05 | Tolak \(H_0\) | Signifikan |
| Experience | 0.0109 | 0.05 | Tolak \(H_0\) | Signifikan |
| Sex | 0.2204 | 0.05 | Gagal Tolak \(H_0\) | Tidak Signifikan |
Pada taraf signifikansi \(0.05\), dapat disimpulkan bahwa variabel Education dan Experience berpengaruh signifikan terhadap peluang diterima bekerja. Sementara itu variabel Sex tidak berpengaruh signifikan terhadap peluang diterima bekerja.
Model regresi logistik yang diperoleh adalah:
\[ \text{logit}(\pi(x)) = -5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3 \]
dengan:
\[ \begin{aligned} X_1 &= \text{Education} \\ X_2 &= \text{Experience} \\ X_3 &= \text{Sex} \end{aligned} \]
Model probabilitasnya adalah:
\[ \pi(x)= \frac{\exp(-5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3)} {1+\exp(-5.6999 + 0.6727X_1 + 0.3115X_2 + 1.0378X_3)} \]
Nilai McFadden’s R-square dari model adalah:
\[ R^2_{McFadden} = 0.261073 \]
Hal ini menunjukkan bahwa model mampu menjelaskan sekitar:
\[ 26.11\% \]
variasi peluang diterimanya pelamar kerja, sedangkan sisanya dijelaskan oleh faktor lain di luar model.
\[ \begin{aligned} \text{Intercept} &= 0.003346 \\ \text{Education} &= 1.959589 \\ \text{Experience} &= 1.365486 \\ \text{Sex} &= 2.823123 \end{aligned} \]
Education = 1.959589 menunjukkan bahwa setiap peningkatan satu unit tingkat pendidikan akan meningkatkan peluang seseorang untuk diterima bekerja sekitar 1.96 kali, dengan asumsi variabel lain tetap.
Experience = 1.365486 menunjukkan bahwa setiap peningkatan satu unit pengalaman kerja akan meningkatkan peluang diterima bekerja sekitar 1.37 kali, dengan asumsi variabel lain tetap.
Sex = 2.823123 menunjukkan bahwa pelamar dengan kategori Sex = 1 memiliki peluang sekitar 2.82 kali lebih besar untuk diterima dibandingkan dengan kategori lainnya, dengan asumsi variabel lain konstan.
| Aktual / Prediksi | Diterima | Tidak Diterima | Total |
|---|---|---|---|
| Diterima | 16 | 4 | 20 |
| Tidak Diterima | 6 | 14 | 20 |
| Total | 22 | 18 | 40 |
\[ \begin{aligned} \text{Prediksi Benar} &= 16 + 14 = 30 \\\\ \text{Total Data} &= 40 \end{aligned} \]
Sehingga tingkat akurasi model adalah
\[ \text{Akurasi} = \frac{30}{40} = 0.75 \]
atau sekitar
\[ 75\% \]
Model mampu mengklasifikasikan data dengan tingkat akurasi sebesar 75%.
\[ H_0 : \text{Model layak} \]
\[ H_1 : \text{Model tidak layak} \]
\[ \alpha = 0.05 \]
\[ p\text{-value} = 0.8066 \]
\[ p\text{-value} > \alpha \]
Sehingga gagal menolak \(H_0\).
Pada taraf signifikansi \(0.05\), dapat disimpulkan bahwa model regresi logistik yang terbentuk merupakan model yang layak (good fit) untuk digunakan dalam analisis.
Berdasarkan hasil analisis regresi linier berganda yang telah dilakukan terhadap variabel Education, Experience, dan Sex terhadap variabel Income, maka dapat diperoleh beberapa kesimpulan sebagai berikut:
Model regresi linier berganda yang digunakan dalam penelitian ini telah memenuhi asumsi klasik, yaitu tidak terjadi multikolinearitas antar variabel independen. Hal ini dibuktikan dengan nilai Variance Inflation Factor (VIF) pada setiap variabel yang lebih kecil dari 10, sehingga model regresi yang digunakan dapat dikatakan layak untuk dianalisis lebih lanjut.
Hasil analisis regresi menunjukkan bahwa variabel Education dan Experience memiliki pengaruh positif terhadap Income. Artinya, semakin tinggi tingkat pendidikan dan semakin lama pengalaman kerja seseorang, maka pendapatan yang diperoleh cenderung meningkat.
Variabel Sex juga dimasukkan dalam model regresi untuk melihat pengaruh perbedaan jenis kelamin terhadap pendapatan. Hasil analisis menunjukkan bahwa variabel ini memiliki pengaruh terhadap Income sesuai dengan hasil estimasi model regresi yang diperoleh.
Secara keseluruhan, model regresi linier berganda yang digunakan dalam penelitian ini mampu menjelaskan hubungan antara variabel independen (Education, Experience, dan Sex) terhadap variabel dependen (Income).
Adnyai, N. L., & Dewi, A. S. (2019). Pengaruh pengalaman kerja, prestasi kerja dan pelatihan terhadap pengembangan karier karyawan. E-Jurnal Manajemen, VIII, 4073–4101.
Anggraeni, Y., & Zain, I. (2015). Pemodelan regresi logistik biner terhadap peminat negeri (SBMPTN) 2014. Jurnal Sains dan Seni ITS, 116.
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. New York: John Wiley & Sons.
Misna, Rais, & Utami, I. T. (2018). Analisis regresi logistik biner untuk mengklasifikasi penderita hipertensi berdasarkan kebiasaan merokok di RSU Mokopido Toli-Toli. Natural Science: Journal of Science and Technology, 344–345.
Wardhani, L. R., Wilandar, Y., & Wuryandari, T. (2015). Analisis keputusan konsumen memilih bahan bakar minyak (BBM) menggunakan model regresi logistik biner dan model log-linear (Studi kasus SPBU 44.502.10 Ketileng Semarang). Jurnal Gaussian, 928.