Library:
> library(readr)
> library(generalhoslem)
> library(pscl)
> library(readxl)Analisis regresi merupakan ilmu yang mempelajari tentang suatu hubungan fungsional antara variabel-variabel yang dinyatakan dalam suatu bentuk persamaan matematik. Pada analisis regresi, variabel tersebut dibedakan kedalam dua jenis variabel yaitu variabel respon (Y) dan variabel prediktor (X). Pada umumnya, analisis regresi sering menggunakan data kuantitatif sebagai variabel responnya. Akan tetapi dalam kenyataannya banyak ditemukan kasus dengan variabel responnya berupa data kualitatif yang berbentuk biner, misalnya peluang tidak atau diterimanya bekerja dan pengambilan keputusan (ya atau tidak). Dalam analisis regresi, hubungan antara variabel respon bersifat kualitatif sedangkan variabel prediktornya bisa bersifat kuantitatif, kualitatif atau gabungan keduanya yang dapat digambarkan ke dalam suatu model yang dikenal sebagai model respon biner. Sebagai ilustrasi, model respon biner ini dapat ditemukan pada kasus seperti berikut ini. Peneliti ingin mengetahui faktor apa saja yang mempengaruhi seseorang dapat diterima di PT Makmur Jaya. Penelitian dilakukan dengan mengambil sampel sebesar 40 orang dan menggunakan analisis regresi logistik. Dengan variabel prediktornya adalah lama pendidikan terakhir, lama pengalaman kerja, jenis kelamin dan variabel responnya adalah diterima atau tidaknya dalam pekerjaan.
Regresi logistik merupakan metode yang berfungsi untuk mencari hubungan variabel respon dengan variabel prediktor, dimana pada variabel respon bersifat kategorik dan memiliki skala nominal dua kategori disebut dengan dichotomus, atau memiliki skala nominal lebih dari dua kategori disebut dengan polychotomus (Agresti, 2002). Model regresi logistik yang variabel responnya bersaka kategori biner atau memiliki dua kategori bernilai 0 dan disebut dengan regresi logistik biner (Agresti, 2013). Maka model regresi logistik dengan k variabel yaitu :
\[ \pi(x)=\frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{k}x_{k})}{1+exp(beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})} \]
Multikolinieritas adalah suatu kejadian dimana pada model regresi ditemukan adanya korelasi antar variabel independen. Model regresi yang baik seharusnya tidak terjadi korelasi antara variabel independen. Pengujian ada tidaknya gejala multikolinieritas salah satunya dilakukan dengan memperhatikan nilai variance inflation factor (VIF). Apabila nilai VIF berada di bawah 10, maka dapat diambil kesimpulan bahwa model regresi tersebut tidak terdapat multikolinieritas (Santoso, 2010)
Uji Signifikansi Model adalah teknik untuk menguji apakah model regresi yang telah dibuat menunjukkan efek yang signifikan secara statistik pada variabel dependen. Uji signifikansi model juga dapat menguji apakah model regresi memenuhi persyaratan asumsi untuk analisis regresi.
Evaluasi ketepatan klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi berdasarkan kriteria atau ukuran yang digunakan (Johnson & Winchern, 2007). APER (Apparent Error Ratio) merupakan suatu nilai yang digunakan untuk melihat peluang kesalahan dalam mengklasifikasikan objek, dengan perhitungan. Uji Ketepatan Klasifikasi adalah teknik untuk mengukur seberapa akurat model klasifikasi dengan membandingkan hasil klasifikasi dari model regresi dengan data yang sebenarnya. Teknik ini sering digunakan untuk model regresi logistik.
Uji parameter adalah teknik statistik untuk melihat signifikansi dari koefisien regresi yang dihasilkan dalam analisis regresi. Uji ini melibatkan perhitungan nilai t-statistik dan p-value untuk menentukan apakah koefisien regresi yang dihasilkan signifikan atau tidak.
Uji Simultan adalah teknik statistik yang digunakan untuk menguji secara bersama-sama pengaruh beberapa variabel independen terhadap satu variabel dependen dalam analisis regresi.
Uji Parsial adalah teknik statistik yang digunakan untuk menguji secara terpisah pengaruh masing-masing variabel independen terhadap satu variabel dependen dalam analisis regresi.
Odds Ratio (OR) adalah salah satu ukuran tingkat resiko yang digunakan dalam menginterpretasikan koefisien parameter pada regresi logistik. Odds ratio digunakan untuk menentukan kecenderungan atau hubungan fungsional antara variabel prediktor dengan variabel respon serta menunjukkan pengaruh perubahan nilai pada variabel yang bersangkutan. (Hosmer & Lemeshow, 2000). Odds Ratio juga dapat diartikan sebagai ukuran yang digunakan dalam analisis regresi logistik yang mengukur kekuatan hubungan antara variabel independen dan variabel dependen. Odds Ratio dibagi Dalam model regresi logistik menjadi dua jenis yaitu untuk variabel kategorial dan variabel numerik.
> library(readr)
> library(generalhoslem)
> library(pscl)
> library(readxl)
> library(rmarkdown)> filereglog <-read_excel("D:/SEMESTER 4/Komputasi Statistika/praktikum/data mini project.xlsx")
> str(filereglog)
tibble [40 × 5] (S3: tbl_df/tbl/data.frame)
$ Pelamar : num [1:40] 1 2 3 4 5 6 7 8 9 10 ...
$ Education : num [1:40] 6 6 8 8 4 6 8 4 6 6 ...
$ Experience: num [1:40] 6 3 3 10 5 1 5 10 12 2 ...
$ Sex : num [1:40] 1 1 0 0 1 1 1 1 0 0 ...
$ Hired : num [1:40] 1 1 1 1 1 1 1 1 1 1 ...
> Y <- as.factor(filereglog$Hired)
> X1 <- filereglog$Education
> X2 <- filereglog$Experience
> X3 <- as.factor(filereglog$Sex)
> str(Y)
Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...
> library(rmarkdown)
> data_log<-paged_table(data.frame(X1 ,X2 , X3, Y))
> data_log> reg1 <- lm(X1~X2+X3, data=data_log)
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3, data = data_log)
Residuals:
Min 1Q Median 3Q Max
-2.0352 -1.4021 0.0161 0.6343 2.6407
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.958230 0.511172 11.656 6e-14 ***
X2 0.008555 0.069735 0.123 0.903
X31 -0.598915 0.509100 -1.176 0.247
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.572 on 37 degrees of freedom
Multiple R-squared: 0.03847, Adjusted R-squared: -0.0135
F-statistic: 0.7403 on 2 and 37 DF, p-value: 0.4839
> R2_1 <- 1/(1-0.03847)
> R2_1
[1] 1.040009
>
> reglog2 <- lm(X2~X1+X3, data =data_log)
> summary(reglog2)
Call:
lm(formula = X2 ~ X1 + X3, data = data_log)
Residuals:
Min 1Q Median 3Q Max
-4.7873 -2.8111 -0.8348 2.1462 7.1176
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.59718 2.49213 1.845 0.0731 .
X1 0.04753 0.38741 0.123 0.9030
X31 -1.11429 1.20837 -0.922 0.3624
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.705 on 37 degrees of freedom
Multiple R-squared: 0.02492, Adjusted R-squared: -0.02779
F-statistic: 0.4728 on 2 and 37 DF, p-value: 0.627
> R2_2 <- 1/(1-0.02492)
> R2_2
[1] 1.025557
>
> reglog3 <- glm(X3~X1+X2, family = binomial, data =data_log)
> pR2(reglog3)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-26.06056951 -27.27418435 2.42722968 0.04449683 0.05887635 0.07910410
> R2_3 <- 1/(1-0.05887635)
> R2_3
[1] 1.06256> reglog<-glm(Y~X1+X2+X3,family=binomial,data=data_log)
> reglog
Call: glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_log)
Coefficients:
(Intercept) X1 X2 X31
-5.6999 0.6727 0.3115 1.0378
Degrees of Freedom: 39 Total (i.e. Null); 36 Residual
Null Deviance: 55.45
Residual Deviance: 40.97 AIC: 48.97> #Uji Simultan
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-20.4874054 -27.7258872 14.4769637 0.2610730 0.3036648 0.4048864
> qchisq(0.95,2)
[1] 5.991465
>
> #Uji Parsial
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_log)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.6999 2.1282 -2.678 0.0074 **
X1 0.6727 0.2909 2.312 0.0208 *
X2 0.3115 0.1223 2.547 0.0109 *
X31 1.0378 0.8469 1.225 0.2204
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.452 on 39 degrees of freedom
Residual deviance: 40.975 on 36 degrees of freedom
AIC: 48.975
Number of Fisher Scoring iterations: 4
>
> #Koefisien Determinasi
> Rsq<-1-(40.975/55.452)
> Rsq
[1] 0.2610726> OR_beta<-exp(coef(reglog))
> OR_beta
(Intercept) X1 X2 X31
0.003346298 1.959589102 1.365485969 2.823123101 > #Tabel Klasifikasi
> yp_hat<-fitted(reglog)
> data_log$yp_hat<-yp_hat
> class<-table(data_log$Y,data_log$yp_hat>0.5)
> class
FALSE TRUE
0 16 4
1 6 14
>
>
> # Uji Kelayakan Model
>
> logitgof(data_log$Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: data_log$Y, fitted(reglog)
X-squared = 4.5284, df = 8, p-value = 0.8066Berdasarkan hasil perhitungan diatas diperoleh model regresi seperti berikut: \[ g(X)=-5.6999 + 0.6727X_{1} + 0.3115X_{2} + 1.0378X_{3} \] Untuk interpretasi parameter dapat diinterpretasikan melalui hasil perhitungan odds ratio, sebagai berikut:
0.003346298 artinya bahwa ketika nilai seluruh variabel prediktor bernilai 0 maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan bernilai 0.003346298
1.959589102 artinya adalah ketika nilai variabel lama pendidikan meningkat 1 satuan dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 1.959589102 kali.
1.365485969 artinya adalah ketika nilai variabel lama pengalaman kerja meningkat 1 satuan dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 0.3115 kali.
2.823123101 artinya adalah ketika nilai variabel jenis kelamin bernilai 1 dan variabel prediktor lain bernilai konstan maka kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya akan mengalami peningkatan sebesar 2.823123101 kali.
Dari hasil uji simultan didapatkan nilai rasio likelihood sebesar 14.4769637 dan nilai chi square tabelnya adalah 5.991465. Jika dibandingkan maka 14.4769637 > 5.991465, maka tolak Ho. Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa ketiga variabel prediktor berpengaruh secara simultan variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya
P_value = 0.0208 p_value(0.0208)< alpha(0.05), maka tolak Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel lama pendidikan terakhir berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya
P_value = 0.0109 p_value(0.0109)< alpha(0.05), maka tolak Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel lama pengalaman kerja berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya
P_value = 0.2204 p_value(0.2204) > alpha(0.05), maka terima Ho Kesimpulan: Dengan tingkat kepercayaan 95% sudah cukup bukti bahwa Variabel jenis kelamin tidak berpengaruh terhadap variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya
Berdasarkan nilai koefisien determinasi yang diperoleh yaitu 0.2610726 dapat diartikan bahwa ketiga variabel prediktor mampu menjelaskan 26.1% variabel respon kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya dan 73.9% lainnya dijelaskan oleh variabel lain di luar model yang tidak dijelaskan.
Dari hasil tabel klasifikasi yang sudah dicari dapat dilihat bahwa model tersebut cocok dalam menggambarkan data adalah sebesar (16+14)/40 = 0.75 atau sebesar 75%. Angka tersebut dapat dibilang sebagai angka yang cukup besar untuk tingkat kecocokan model.
Untuk mengetahui sudah sesuai atau belum sesuainya suatu model dapat menggunakan uji Hosmer & Lemeshow. Dari hasil perhitungan yang ada dapat dikatakan bahwa nilai p-value (0.8066) > (0.05) maka dapat diputuskan terima H0 sehingga dapat disimpulkan bahwa model tersebut sudah cukup untuk menggambarkan data.
Berdasarkan hasil pengujian hasil analisis regresi logistik yang sudah dilakukan dapat disimpulkan bahwa terdapat 2 variabel yang berpegaruh secara signifikan terhadap kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya, yaitu variabel lama pendidikan terakhir dan variabel lama pengalaman kerja. Sedangkan variabel jenis kelamin tidak berpengaruh secara signifikan terhadap kemungkinan seseorang dapat diterima bekerja di PT Makmur Jaya