Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 PENDAHULUAN
1.1 Latar Belakang
Statistika merupakan ilmu dan atau seni yang mempelajari bagaimana langkah dalam mengumpulkan, menganalisis, menyajikan, menginterpretasikan, dan mempresentasikan suatu data sehingga dapat memberikan sebuah informasi yang berguna bagi kehidupan. Bentuk metode yang ada pada statistika bermacam-macam jenisnya. Metode tersebut digunakan sesuai dengan jenis data dan tujuan dari analisis yang dilakukan.
Analisis regresi logistik merupakan salah satu metode statistika yang digunakan apabila data dari pengamatan bertipe kategorikal. Tujuan dari analsis ini yaitu untuk mengetahui hubungan antara variabel prediktor (X) dengan variabel respon (Y). Model persamaan regresi logistik terbagi menjadi dua yaitu regresi logistik biner dan multinomial. Perbedaan dari kedua model terletak pada banyak kategorisasi dari variabel respon. Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kemungkinan hasil seperti sukses dan gagal. Sedangkan regresi logistik multinomial digunakan ketika variabel respon memiliki leih dari dua kemungkinan hasil.
Bekerja menjadi sebuah kegiatan yang menjadi pelengkap kehidupan seseorang. Pekerjaan membuat masyarakat bisa mendapatkan uang. Uang akan dikelola untuk memenuhi kebutuhan hidup. Rantai pengelolaan uang bisa terus berputar apabila masyarakat bisa mendapatkan uang.Oleh karena itu, begitu banyak orang tua yang menekankan betapa pentingnya pendidikan dan pengalaman untuk bisa bertahan di dunia yang semakin berkembang. Semua orang ingin memiliki kehidupan yang layak. Oleh karena itu, untuk mengetahui faktor-faktor yang mempengaruhi peluang diterima atau tidaknya seseorang dalam melamar pekerjaan maka dibentuklah model yang dapat membantu hubungan sebab akibat dari permasalahan ini yaitu dengan menggunakan model regresi logistik biner.
1.2 Statistika Deskriptif
Statistika deskriptif merupakan serangkaian teknik yang meliputi pengumpulan, penyajian, dan peringkasan data. Statistika deskriptif bertujuan untuk menyajikan ringkasan dari data dalam bentuk angka-angka statistik maupun secara visual,seperti dalam bentuk diagram, tabel, dan grafik, serta indikator-indikator dari data sebagaimana adanya tanpa membuat analisa atas data tersebut.
1.3 Regresi Logistik Biner
Regresi logistik biner adalah salah satu metode statistika yang digunakan untuk menganalisis hubungan antara satu atau lebih variabel prediktor dengan variabel respon biner. Dalam regresi logistik biner, variabel respon biasanya diwakili sebagai variabel dummy, seperti 0 mewakili kategori gagal dan 1 mewakili kategori sukses. Tujuan dari regresi logistik biner adalah mempelajari pengaruh variabel prediktor terhadap peluang kejadian (probabilitas) variabel respon mengambil nilai 1. Variabel respon pada metode ini menggambarkan distribusi Bernoulli untuk setiap observasi tunggal. Model regresi logistik adalah model regresi variabel respon biner yang melibatkan transformasi logit. Regresi logistik biner banyak digunakan dalam berbagai bidang, seperti ilmu sosial, kesehatan masyarakat, keuangan, dan pemasaran, untuk mempelajari faktor-faktor yang mempengaruhi kejadian atau keputusan biner dan membuat prediksi terkait.
1.4 Data
Pada analisis ini menggunakan data yang bersifat sekunder sehingga bisa langsung dianalisis menggunakan analisis regresi logistik biner. Analisis kali ini bertujuan untuk mengetahui faktor-faktor seseorang dapat diterima kerja. Data berjumlah sebanyak 40 sampel dengan 3 variabel prediktor yaitu pendidikan terakhir, lama pengalaman kerja, dan jenis kelamin yang dianggap memiliki pengaruh terhadap peluang seseorang dapat diterima kerja. Data ini termasuk data studi kasus dari laman web: http://data.fmipa.unand.ac.id/matematika/file_bahankuliah/PEMODELAN%20DENGAN%20REGRESI%20LOGISTIK.pdf
2 SOURCE CODE
2.1 Library yang Dibutuhkan
> library(generalhoslem)
> library(pscl)
> library(readxl)2.2 Mengimport Data
> Rlogistik <- read_excel("Rlogistik.xlsx")
> View(Rlogistik)
Error in .External2(C_dataviewer, x, title): unable to start data viewer
> Y <- as.factor(Rlogistik$Y)
> X1 <- Rlogistik$X1
> X2 <- Rlogistik$X2
> X3 <- as.factor(Rlogistik$X3)
> str(Y)
Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...
>
> #Membentuk data frame
> datalogis<-data.frame(X1,X2,X3,Y)
> str(datalogis)
'data.frame': 40 obs. of 4 variables:
$ X1: num 6 6 8 8 4 6 8 4 6 6 ...
$ X2: num 6 3 3 10 5 1 5 10 12 2 ...
$ X3: Factor w/ 2 levels "0","1": 2 2 1 1 2 2 2 2 1 1 ...
$ Y : Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...2.3 Visualisasi Data
> library(rmarkdown)
> paged_table(as.data.frame(datalogis))> plot1 <- smoothScatter(datalogis$X1, xlab = "X1", ylab = "Y", main = "Penerimaan Kerja Berdasarkan Pendidikan Terakhir")> plot2 <- smoothScatter(datalogis$X2, xlab = "X2", ylab = "Y", main = "Penerimaan Kerja Berdasarkan Lama Pengalaman Kerja")2.4 Analisis Data
> #Asumsi Nonmultikolinieritas
> reg1 <- lm(X1~X2+X3, data=datalogis)
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3, data = datalogis)
Residuals:
Min 1Q Median 3Q Max
-2.0352 -1.4021 0.0161 0.6343 2.6407
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.958230 0.511172 11.656 6e-14 ***
X2 0.008555 0.069735 0.123 0.903
X31 -0.598915 0.509100 -1.176 0.247
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.572 on 37 degrees of freedom
Multiple R-squared: 0.03847, Adjusted R-squared: -0.0135
F-statistic: 0.7403 on 2 and 37 DF, p-value: 0.4839
>
> reg2 <- lm(X2~X1+X3, data=datalogis)
> summary(reg2)
Call:
lm(formula = X2 ~ X1 + X3, data = datalogis)
Residuals:
Min 1Q Median 3Q Max
-4.7873 -2.8111 -0.8348 2.1462 7.1176
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.59718 2.49213 1.845 0.0731 .
X1 0.04753 0.38741 0.123 0.9030
X31 -1.11429 1.20837 -0.922 0.3624
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.705 on 37 degrees of freedom
Multiple R-squared: 0.02492, Adjusted R-squared: -0.02779
F-statistic: 0.4728 on 2 and 37 DF, p-value: 0.627
>
> #Analisis Regresi Logistik
> reglog<-glm(Y~X1+X2+X3,family=binomial,data=datalogis)
> reglog
Call: glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = datalogis)
Coefficients:
(Intercept) X1 X2 X31
-5.6999 0.6727 0.3115 1.0378
Degrees of Freedom: 39 Total (i.e. Null); 36 Residual
Null Deviance: 55.45
Residual Deviance: 40.97 AIC: 48.97
>
> #Uji Signifikansi Keseluruhan Model
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-20.4874054 -27.7258872 14.4769637 0.2610730 0.3036648 0.4048864
> qchisq(0.95,2)
[1] 5.991465
>
> #Uji Parsial Parameter Model
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = datalogis)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.6999 2.1282 -2.678 0.0074 **
X1 0.6727 0.2909 2.312 0.0208 *
X2 0.3115 0.1223 2.547 0.0109 *
X31 1.0378 0.8469 1.225 0.2204
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.452 on 39 degrees of freedom
Residual deviance: 40.975 on 36 degrees of freedom
AIC: 48.975
Number of Fisher Scoring iterations: 4
>
> #Odds Ratio
> beta<-(coef(reglog))
> beta
(Intercept) X1 X2 X31
-5.6999005 0.6727348 0.3115104 1.0378438
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X2 X31
0.003346298 1.959589102 1.365485969 2.823123101
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -5.6999005 0.003346298
X1 0.6727348 1.959589102
X2 0.3115104 1.365485969
X31 1.0378438 2.823123101
>
> #Membentuk klasifikasi
> yp_hat<-fitted(reglog)
> datalogis$yp_hat<-yp_hat
> datalogis
X1 X2 X3 Y yp_hat
1 6 6 1 1 0.77615779
2 6 3 1 1 0.57661266
3 8 3 0 1 0.64942419
4 8 10 0 1 0.94251793
5 4 5 1 1 0.39805747
6 6 1 1 1 0.42210514
7 8 5 1 1 0.90698572
8 4 10 1 1 0.75841079
9 6 12 0 1 0.88841308
10 6 2 0 1 0.26105915
11 4 0 1 0 0.12226891
12 4 1 0 0 0.06312394
13 4 2 1 0 0.20618171
14 4 4 0 0 0.14642504
15 6 1 0 0 0.20554665
16 4 2 1 0 0.20618171
17 8 5 1 0 0.90698572
18 4 2 0 0 0.08425111
19 6 7 0 0 0.62646497
20 6 4 0 0 0.39712708
21 8 0 1 0 0.67256776
22 4 0 0 0 0.04702267
23 4 1 1 0 0.15981474
24 4 5 1 0 0.39805747
25 6 0 1 0 0.34849802
26 4 9 0 0 0.44883775
27 8 1 0 0 0.49837210
28 6 1 1 0 0.42210514
29 6 6 1 1 0.77615779
30 6 3 1 1 0.57661266
31 8 3 0 1 0.64942419
32 8 10 0 1 0.94251793
33 4 5 1 1 0.39805747
34 6 1 1 1 0.42210514
35 8 5 1 1 0.90698572
36 4 10 1 1 0.75841079
37 6 12 0 1 0.88841308
38 6 2 0 1 0.26105915
39 4 0 1 0 0.12226891
40 4 10 1 0 0.75841079
> class<-table(datalogis$Y,datalogis$yp_hat>0.5)
> class
FALSE TRUE
0 16 4
1 6 14
>
> #Uji Kelayakan Model
> logitgof(datalogis$Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: datalogis$Y, fitted(reglog)
X-squared = 4.5284, df = 8, p-value = 0.80663 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
> plot1 <- smoothScatter(datalogis$X1, xlab = "X1", ylab = "Y", main = "Penerimaan Kerja Berdasarkan Pendidikan Terakhir")> plot2 <- smoothScatter(datalogis$X2, xlab = "X2", ylab = "Y", main = "Penerimaan Kerja Berdasarkan Lama Pengalaman Kerja")
Visualisasi dari kedua plot menggambarkan bahwa keragaman data dari
variabel prediktor (X1) dan variabel respon (Y) menyebar menjadi tiga
kelompok yaitu atas, tengah, dan bawah. Sedangan keragaman data dari
variabel prediktor (X2) dan variabel respon (Y) menyebar secara tidak
beraturan.
3.2 Asumsi Nonmultikolinieritas
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3, data = datalogis)
Residuals:
Min 1Q Median 3Q Max
-2.0352 -1.4021 0.0161 0.6343 2.6407
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.958230 0.511172 11.656 6e-14 ***
X2 0.008555 0.069735 0.123 0.903
X31 -0.598915 0.509100 -1.176 0.247
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.572 on 37 degrees of freedom
Multiple R-squared: 0.03847, Adjusted R-squared: -0.0135
F-statistic: 0.7403 on 2 and 37 DF, p-value: 0.4839Berdasarkan ouput diatas, diketahui bahwa nilai-p (0,4839) di mana nilai tersebut lebih besar dari alfa(0,05) maka gagal tolak HO. Sehingga dapat disimpulkan bahwa tidak terdapat korelasi antar variabel
> summary(reg2)
Call:
lm(formula = X2 ~ X1 + X3, data = datalogis)
Residuals:
Min 1Q Median 3Q Max
-4.7873 -2.8111 -0.8348 2.1462 7.1176
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.59718 2.49213 1.845 0.0731 .
X1 0.04753 0.38741 0.123 0.9030
X31 -1.11429 1.20837 -0.922 0.3624
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.705 on 37 degrees of freedom
Multiple R-squared: 0.02492, Adjusted R-squared: -0.02779
F-statistic: 0.4728 on 2 and 37 DF, p-value: 0.627Berdasarkan ouput diatas, diketahui bahwa nilai-p (0,627) di mana nilai tersebut lebih besar dari alfa(0,05) maka gagal tolak HO. Sehingga dapat disimpulkan bahwa tidak terdapat korelasi antar variabel
3.3 Analisis Regresi Logistik
> reglog
Call: glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = datalogis)
Coefficients:
(Intercept) X1 X2 X31
-5.6999 0.6727 0.3115 1.0378
Degrees of Freedom: 39 Total (i.e. Null); 36 Residual
Null Deviance: 55.45
Residual Deviance: 40.97 AIC: 48.97Berdasarkan output diatas, diperoleh bentuk model dari regresi logistik sebagai berikut: \[ \text{logit}(p) = \frac{e^{-5,6999 + 0,6727x_1 + 0,3115x_2 + 1,0378x_3}}{1 + e^{-5,6999 + 0,6727x_1 + 0,3115x_2 + 1,0378x_3}} \]
3.4 Uji Signifikansi Keseluruhan Model
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-20.4874054 -27.7258872 14.4769637 0.2610730 0.3036648 0.4048864
> qchisq(0.95,2)
[1] 5.991465Berdasarkan output di atas dapat diketahui bahwa nilai G2 sebesar 14,477 dengan nilai chisquare tabel sebesar 5,99. Berdasarkan hal tersebut mengartikan bahwa nilai G2 lebih besar dibandingkan dengan nilai chisquare sehingga dapat diputuskan H0 ditolak. Maka dapat disimpulkan bahwa model signifikan atau minimal terdapat satu variabel prediktor yang berpengaruh terhadap variabel respon.
3.5 Uji Parsial Parameter Model
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = datalogis)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.6999 2.1282 -2.678 0.0074 **
X1 0.6727 0.2909 2.312 0.0208 *
X2 0.3115 0.1223 2.547 0.0109 *
X31 1.0378 0.8469 1.225 0.2204
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.452 on 39 degrees of freedom
Residual deviance: 40.975 on 36 degrees of freedom
AIC: 48.975
Number of Fisher Scoring iterations: 4Berdasarkan output di atas dapat diketahui bahwa variabel X1 dan X2 memiliki p-value kurang dari alpha (0,05), sehingga tolak H0. Maka dapat disimpulkan bahwa pendidikan terakhir dan lama pengalaman kerja berpengaruh signifikan terhadap peluang diterimanya seseorang dalam melamar kerja.
3.6 Odds Ratio
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -5.6999005 0.003346298
X1 0.6727348 1.959589102
X2 0.3115104 1.365485969
X31 1.0378438 2.823123101interpretasi: >Apabila pendidikan terakhir bertambah 1 tingkat maka kecenderungan seseorang dapat diterima kerja meningkat sebesar 1,9596 kali lipat. Artinya, apabila seseorang memiliki pendidikan yang semakin tinggi maka potensi diterima kerja akan semakin besar peluangnya. >Apabila lama pengalaman kerja bertambah 1 tahun maka kecenderungan seseorang dapat diterima kerja meningkat sebesar 1,3655 kali lipat. Artinya, apabila seseorang memiliki pengalaman kerja yang semakin banyak maka potensi diterima kerja akan semakin besar peluangnya. >Peluang seseorang dapat diterima kerja berdasarkan jenis kelamin memiliki kecenderungan berhasil diterima sebesar 2,8231.
3.7 Membentuk klasifikasi
> class
FALSE TRUE
0 16 4
1 6 14Berdasarkan output di atas dapat disimpulkan bahwa: -Dari pengamatan Y bernilai 0 (tidak diterima kerja), hanya 4 yang diklasifikasikan dengan benar -Dari pengamatan Y bernilai 1 (diterima kerja), terdapat 14 yang diklasifikasikan dengan benar -Tingkat akurasi model sebesar \[ \frac{{(4+14)}}{{100}} \times 100\% = 18\% \]
3.8 Uji Kelayakan Model
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-20.4874054 -27.7258872 14.4769637 0.2610730 0.3036648 0.4048864
> qchisq(0.95,2)
[1] 5.991465Berdasarkan output di atas diperoleh nilai p-value (0,8066) di mana nilai tersebut lebih besar dari alfa (0,05), maka gagal tolah H0. Sehingga dapat disimpulkan bahwa model yang terbentuk layak digunakan.
4 DAFTAR PUSTAKA
Adwendi S. (2021). Penerapan Regresi Logistik dalam Klasifikasi Tingkat Kedalaman Kemiskinan Provinsi di Indonesia Tahun 2020. https://rpubs.com/adwendi/minipaper_reglog Alhamdi H. (2023). Analisis Regresi Logistik Biner. https://rpubs.com/HelmiTareqAlhamdi/1043995 File Bahan Kuliah: PEMODELAN DENGAN REGRESI LOGISTIK. http://data.fmipa.unand.ac.id/matematika/file_bahankuliah/PEMODELAN%20DENGAN%20REGRESI%20LOGISTIK.pdf Roflin, E., Riana, F., Munarsih, E., & Liberty, I. A. (2023). Regresi Logistik Biner dan Multinomial. Penerbit NEM.