Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 Bab I : Pendahuluan
1.1 Latar Belakang
Dalam kehidupan sehari-hari, pemanfaatan model regresi logistic dapat diterapkan secara luas. Regresi logistic sendiri terbagi 2 yaini Regresi Logistik Biner dan Regresi Logistik Ordinal. Dalam laporan praktikum kali ini, penulis mendapatkan data bervariabel respon “Diterima dan “Tidak Diterima” sehingga analisis regresi biasa maupun ordinal tidak bisa digunakan untuk memodelkan hubungan antara variabel, maka pendekatan yang digunakan adalah analisis regresi logistik biner.
Data yang digunakan adalah data dari bahan kuliah Program Studi Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Andalas Padang yang berjudul “PEMODELAN DENGAN REGRESI LOGISTIK”. Penulis akan membahas mengenai regresi logistic biner dalam konsep dasar, penerapan, hingga komputasinya.
1.2 Rumusan Masalah
Berdasarkan latar belakang penulis merumuskan sebuah masalah dalam laporan praktikum ini yaitu:
• Bagaimana memodelkan data masalah menggunakan regresi logistik biner?
• Apa saja faktor-faktor yang mempengaruhi masalah berdasarkan data?
• Bagaimana kesimpulan yang dapat diambil?
1.3 Tujuan Masalah
Berdasarkan rumusan masalah, penulis merusmuskan sebuah masalah dalam laporan praktikum ini yaitu:
• Bagaimana memodelkan data masalah menggunakan regresi logistik biner?
• Apa saja faktor-faktor yang mempengaruhi masalah berdasarkan data?
• Bagaimana kesimpulan yang dapat diambil?
1.4 Manfaat Praktikum
Manfaat yang ingin dicapai dari laporan praktikum ini adalah
• Bagi Penulis
Dapat mengasplikasikan metode analisis regresi logistik terutama regresi logistik biner pada data kasus nyata serta melihat faktor-faktor yang mempengaruhi idata terhadap masalah
• Bagi Pembaca
Menambah wawasan bagi pembaca dan dapat dijadikan bahan referensi untuk penelitian, laporan praktikum, maupun sumber belajar bagi mahasiswa pada umumnya.
2 Bab II: Tinjau Pustaka
2.1 Statistika Deskriptif
Statistika deskriptif adalah deskripsi dari data yang dikumpulkan. Tujuan dari statistik deskriptif adalah untuk mendeskripsikan atau memberikan gambaran tentang subjek penelitian: secara ringkas, bukan untuk menyimpulkan atau berspekulasi. Dalam statistik deskriptif ini, data dapat disajikan dalam bentuk tabel distribusi, grafik, bagan, atau narasi di mana rata-rata, modus, median, rentang, dan standar deviasi dihitung.
Dalam statistika deskriptif terdapat dua ukuran yaitu ukuran pemusatan data dan ukuran penyebaran data (Walpole, 1995). Ukuran pemusatan data dapat berupa rata-rata (mean), median, modus, dan quartil sedangkan ukuran penyebaran data dapat meliputi rentang, varian, standar deviasi, dan jangkauan antar kuartil (Walpole, 1995).
2.2 Regresi Logistik Biner
Regresi logistik adalah suatu metode analisis statistika untuk mendeskripsikan hubungan antara peubah respon yang memiliki dua atau lebih kategori dengan satu atau lebih peubah penjelas yang berskala kategori atau interval (Hosmer & Lemeshow, 2000). Analisis regresi logistik menghasilkan peubah yang bersifat biner dan dikotomi. Model regresi logistik biner digunakan jika peubah terikatnya menghasilkan dua kategori yang bernilai 0 dan 1, sehingga mengikuti distribusi Bernoulli sebagai berikut (Agresti, 1990):
\[ f(Y=y) = \pi(x)(1 - \pi(x))^{1-y}, y = 0,1 \]
Dimana jika y = 0 maka P(Y = 0) = 1-\(\pi\) dan jika y = 1 maka P(Y = 1) = \(\pi\)
Regresi logistik tidak memodelkan secara langsung peubah terikat (Y) dengan peubah bebas (X), melainkan melalui transformasi peubah terikat ke variabel logit yang merupakan natural log dari odds rasio. Model dengan p peubah bebas. Model regresi logistik dengan buah peubah penjelas dibentuk dengan nilai s dinotasikan sebagai berikut:
\[ \pi(x) = \frac{\exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)}{1 + \exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)} \]
Dimana:
\(\pi(x)\) = peluang kejadian sukses dengan nilai probabilitas \(0\le \pi(x)\le 1\),
\(\beta_0\) = intersep (bilangan konstan),
\(\beta_1, ... , \beta_p\) = parameter resgresi logistik,
\(x_1, ... , x_p\) = nilai peubah bebas.
Dikarenakan nilai persamaan diatas meripakan persamaan non linier, maka perlu diadakan trasnformasi logit sehingga didapatkan fungsi logit g(x). Model regresi logistik biner memiliki persamaan dengan sebaran binom sebagai berikut:
\[ g(x) = \ln\left(\frac{\pi(x)}{1 - \pi(x)}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p \]
Dimana:
\(g(x)\) adalah fungsi logit.
\(\pi(x)\) adalah peluang kejadian sukses dengan nilai probabilitas \(0\le \pi(x)\le 1\)
2.3 Asumsi Multikolinieritas
Cara yang digunakan untuk mendeteksi ada tidaknya multikoliniearitas adalah dengan menggunakan variance inflation factors (VIF), dimana R² adalah koefisien determinasi yang diperoleh dengan meregresikan salah satu variabel independen terhadap variabel independen lainnya. Jika nilai VIF nya kurang dari 10 maka dalam data tidak terdapat Multikolinearitas (Gujarati, 2004:362). VIF (Variance Inflantion Factor) adalah salah satu cara dalam mendeteksi adanya multikolinearitas, dengan rumus: \[ VIF_j = \frac{1}{1 - R^2_j} \] Dengan:
\(R^2_j\) adalah koefisien determinasi antara \(X_j\) dengan variabel bebas lainnya pada persamaan atau model dugaan; dimana \(j=1,2,...p.\) Multikolinieritas dalam sebuah regresi dapat diketahui apabila nilai \(VIF\ge 10.\) Semakin tinggi nilai VIF maka permasalahan multikolinieritas semakin serius.
Dengan nilai Tolerance. Jika nilai Tolerance kurang dari 0,1 atau nilai VIF melebihi 10 maka hal tersebut menunjukkan bahwa multikolinearitas adalah masalah yang pasti terjadi antar variabel bebas. \[ Tolerance = \frac{1}{VIF} \] (E. Supriyadi et al, 2017)
2.4 Uji Signifikansi
Uji signifikansi parameter model regresi digunakan untuk mengetahui variabel prediktor secara signifikan berpengaruh terhadap variabel respon atau tidak. Uji ini dibagi dua yakni:
2.4.1 Uji Signifikansi Parsial
Uji ini dilakukan dengan menguji secara individu tiap variabel prediktor. Tujuan utamanya yakni untuk mengetahui pengaruh antara variabel prediktor masing masing terhadap variabel respon. Uji Signifikansi Parsial menggunakan Uji Wald sebagai statistik ujinya, dengan rumus sebagai berikut: \[ w = \frac{\beta_j}{SE(\beta_j)} \] Dimana: \(\beta_j\) adalah koefisien yang terkait dengan prediktor\(xj.\) \(SE(\beta_j)\) adalah standar error dari koefisien \(\beta_j\)
2.4.2 Uji Signifikansi Simultan
Uji ini dilakukan untuk menguji secara keseluruhan variabel prediktor. Tujuan utamanya adalah untuk mengetahui pengaruh antara seluruh variabel prediktor terhadap variabel respon. Uji Signfikansi Simultan menggunakan uji rasio Likelihood sebagai statistik ujinya, dengan rumus sebagai berikut:
\[ G = -2log(\frac {L_0}{L_1}) \] Dimana: \(G\) adalah nilai uji signifikansi simultan. \(L_0\) adalah likelihood model terbatas (model dengan variabel terbatas). \(L_1\) adalah likelihood model lengkap (model dengan semua variabel).
2.5 Odds Ratio (Interpretasi Koefisien Parameter)
Interpretasi Koefisien Parameter ialah penentuan hubungan fungsional antarabariabel respon dan prediktor dan pendefinisian setiap perubahan variabel respon yang disebabkan variabel prediktor. Interpretasi koefisien parameter dapat dilihat pada tabel berikut:
Interpretasi Koefisien Parameter berkaitan dengan Odds Ratio (OR) atau rasio kecenderungan, diamana ia merupakan angka kecenderungan yang didefinisikan sebagai rasio antara jumlah individu yang mengalami peristiwa dengan yang tidak. Berikut merupakan rumus bagi Odds Ratio: \[ \psi = \frac{\pi(1)/[1-\pi(1)]}{\pi(0)/[1-\pi(0)]} \]
2.6 Uji Kesesuaian Model
Uji Kesesuaian Model atau yang biasa disebut Goodness of fit adalah uji untuk menilai seberapa baik model regresi yang dihasilkan untuk menjelaskan atau merepresentasikan data yang diamati. Kesesuaian model pada Goodness of fit dapat dilihat melalui tabel Hosmer and Lemeshow Test. Menurut Peeters, etc (2012) uji yang digunakan untuk menilai kesesuaian model pada regresi logistik ialah membandingkan frekuensi yang diamati, Adapun statistik ujinya yakni: \[ C = \sum_{j}^{} \frac{(o_j - n_j\pi_j)^2} {n_j\pi_j (1 - pi_j)} \]
2.7 Ketepatan Klasifikasi
Prosedur ini bertujuan untuk mengetahui seberapa layak atau benar tidaknya suatu data klasifikasi. Prosedur klasifikasi yang digunakan dalam regresi logistik ialah apparent error rate (APER). Nilai APER sendiri menyatakan bahwa proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi (Johnson & Wichern, 1992). Untuk menghitungnya, akan lebih mudah jika menggunakan tabel silang antara hasil observasi. Tabel silang atau tabel ketetapan klasifikasi merupakan tabel frekuensi dua arah antara variabel respon dan prediktor. Rumus perhitungannya sebagai berikut: \[ Ketepatan Klasifikasi = \frac{Jumlah Prediksi Benar}{Jumlah Total Data} \] Ketepatan Klasifikasi = 100% - APER(%)
3 Bab III: Data
3.1 Variabel
Variabel yang diteliti adalah sebagai berikut.
\(y\) (keputusan) = 1 jika diterima dan 0 jika tidak diterima
\(x_1\) = lama pendidikan terakhir (tahun)
\(x_2\) = lama pengalaman kerja (tahun)
\(x_3\) (jenis kelamin) = 1 jika pelamarnya laki-laki dan 0 jika pelamarnya perempuan
3.2 Tabel Data
> #Inisiasi Data
> library(readxl)
> setwd("C:/Users/WINDOWS 10/Documents/Semester 4/1. Praktikum/Komputasi Statistika/UAP")
> data = read_excel("DatayangMelamarPekerjaan.xlsx")
> str(data)
tibble [40 × 4] (S3: tbl_df/tbl/data.frame)
$ Education : num [1:40] 6 6 8 8 4 6 8 4 6 6 ...
$ Experience: num [1:40] 6 3 3 10 5 1 5 10 12 2 ...
$ SEX : num [1:40] 1 1 0 0 1 1 1 1 0 0 ...
$ HIRED : num [1:40] 1 1 1 1 1 1 1 1 1 1 ...
>
> Y = data$HIRED
> X1 = data$Education
> X2 = data$Experience
> X3 = data$SEX
>
> #Membuat Data Frame
> data1 = data.frame(Y, X1, X2, X3)
> data1
Y X1 X2 X3
1 1 6 6 1
2 1 6 3 1
3 1 8 3 0
4 1 8 10 0
5 1 4 5 1
6 1 6 1 1
7 1 8 5 1
8 1 4 10 1
9 1 6 12 0
10 1 6 2 0
11 0 4 0 1
12 0 4 1 0
13 0 4 2 1
14 0 4 4 0
15 0 6 1 0
16 0 4 2 1
17 0 8 5 1
18 0 4 2 0
19 0 6 7 0
20 0 6 4 0
21 0 8 0 1
22 0 4 0 0
23 0 4 1 1
24 0 4 5 1
25 0 6 0 1
26 0 4 9 0
27 0 8 1 0
28 0 6 1 1
29 1 6 6 1
30 1 6 3 1
31 1 8 3 0
32 1 8 10 0
33 1 4 5 1
34 1 6 1 1
35 1 8 5 1
36 1 4 10 1
37 1 6 12 0
38 1 6 2 0
39 0 4 0 1
40 0 4 10 14 Bab IV: Hasil dan Pembahasan
4.1 Statistika Deskriptif
> #Statistika Deskriptif
> summary(data)
Education Experience SEX HIRED
Min. :4.00 Min. : 0.000 Min. :0.000 Min. :0.0
1st Qu.:4.00 1st Qu.: 1.000 1st Qu.:0.000 1st Qu.:0.0
Median :6.00 Median : 3.000 Median :1.000 Median :0.5
Mean :5.65 Mean : 4.225 Mean :0.575 Mean :0.5
3rd Qu.:6.00 3rd Qu.: 6.000 3rd Qu.:1.000 3rd Qu.:1.0
Max. :8.00 Max. :12.000 Max. :1.000 Max. :1.0 Dengan perhitungan dari function summary(), didapati berbagai statistika deskriptif dari setiap variabel (respon dan prediktor). Setiap variabel dapat ditemukan hasil dari nilai paling rendah (min), paling tinggi (max), rata-rata(mean), kuartil (bawah dan atas), serta nilai tengah (median).
4.2 Asumsi Multikolinieritas
> # Uji Multikolinieritas
>
> modelX1 = lm(X1~X2+X3, data=data1)
> vif_X1 = 1/ (1 - summary(modelX1)$r.squared)
> modelX2 = lm(X2~X1+X3, data=data1)
> vif_X2 = 1/ (1 - summary(modelX2)$r.squared)
> modelX3 = lm(X3~X1, data=data1)
> vif_X3 = 1/ (1 - summary(modelX3)$r.squared)
> VIF = data.frame(vif_X1,vif_X2,vif_X3)
> VIF
vif_X1 vif_X2 vif_X3
1 1.040014 1.025556 1.039591Perhitungan VIF atau Variance Inflation Factors perlu dilakukan sebelum membentuk model regresi logistik biner. Perhitungan ini dilakukan pada setiap variabel prediktor. Berdasarkan Function diatas, nilai VIF pada masing masing variabel prediktor menghasilkan nilai kurang dari 10, yang artinya masing masing variabel prediktor tidak terjadi multikolinieritas antar variabel prediktor atau tidak saling berkorelasi. Sehingga data pelamar yang berupa faktor faktor yang mempengaruhi keputusan diterima atau tidaknya pelamar dapat digunakan.
4.3 Model regresi Logistik Biner
> #Model Regresi Logistik
> modelredlog = glm(Y ~ X1 + X2 + X3, family = "binomial", data = data1)
> summary(modelredlog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = "binomial", data = data1)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.6999 2.1282 -2.678 0.0074 **
X1 0.6727 0.2909 2.312 0.0208 *
X2 0.3115 0.1223 2.547 0.0109 *
X3 1.0378 0.8469 1.225 0.2204
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 55.452 on 39 degrees of freedom
Residual deviance: 40.975 on 36 degrees of freedom
AIC: 48.975
Number of Fisher Scoring iterations: 4Dengan perhitungan dari function glm() didapatkan model regresi logistik sebagai berikut: \[ g(x) = ln (\frac{\pi(x)}{1-\pi(x)}) = -5.6999 + 0.6727X1 + 0.3115X2 + 1.0378X3 \] Interpretasi parameter dapat dilihat yakni sebagai berikut
• Ketika semua variabel bernilai 0 maka keputusan seseorang diterima bekerja di PT Makmur Jaya adalah sebesar -5.6999 • Ketika variabel X1 meningkat 1 satuan dan variabel lain konstan, maka keputusan seseorang diterima bekerja di PT Makmur Jaya akan meningkat sebesar 0.6727 • Ketika variabel X2 meningkat 1 satuan dan variabel lain konstan, maka aka keputusan seseorang diterima bekerja di PT Makmur Jaya akan meningkat sebesar 0.3115 • Ketika variabel X3 meningkat 1 satuan dan variabel lain konstan, maka aka keputusan seseorang diterima bekerja di PT Makmur Jaya akan meningkat sebesar 1.0378
4.4 Uji Signifikansi
4.4.1 Uji Signifikansi Parsial
> #Uji Parsial
> summary(modelreglog)
Error in eval(expr, envir, enclos): object 'modelreglog' not found• Bagi Variabel Prediktor X1 Pvalue = 0.0208 < 0,05 (alpha), Tolak Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Lama Pendidikan Terakhir (X1) berpengaruh signifikan terhadap variabel respon Keputusan
• Bagi Variabel Prediktor X2 Pvalue = 0.0109 < 0,05 (alpha), Tolak Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Lama Pengalaman Kerja (X2) berpengaruh signifikan terhadap variabel respon Keputusan
• Bagi Variabel Prediktor X3 Pvalue = 0.2204 > 0,05 (alpha), Terima Ho
• Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Jenis Kelamin (X3) tidak berpengaruh signifikan terhadap variabel respon Keputusan
4.4.2 Uji Signifikansi Simultan
> #Uji Signifikansi Keseluruhan (Simultan)
> library(pscl)
> pR2(modelreglog)
Error in eval(expr, envir, enclos): object 'modelreglog' not foundBerdasarkan hasil Uji Signifikansi Simultan, didapati rasio Likelihood sebesar 14.4769637 dan nilai Chi-Square tabelnya yakni 14.4769637 Dapat disimpulkan bahwa Likelihood (14.4769637) > (14.4769637) Chi-Squared tabel. Kesimpulan yang dapat diambil yakni Tolak HO dimana dapat cukup bukti bahwa ke-3 variabel prediktor berpengaruh signifikan terhadap variabel respon Keputusan
4.5 Odds Ratio
> #Odds Ratio
> beta = coef(modelreglog)
Error in eval(expr, envir, enclos): object 'modelreglog' not found
> OR_Beta = exp(beta)
Error in exp(beta): non-numeric argument to mathematical function
> Odds_ratio = cbind(beta,OR_Beta)
Error in eval(expr, envir, enclos): object 'OR_Beta' not found
> Odds_ratio
Error in eval(expr, envir, enclos): object 'Odds_ratio' not foundDengan fungsi diatas dapat diketahui untuk Odds Ratio akan menghasilkan interpretasi setiap variabel sebagai berikut:
• Ketika variabel X1 bertambah 1 satuan dan variabel lain konstan,
maka kecenderungan Keputusan diterima akan meningkat sebesar 1.9595 kali
lipat • Peluang variabel X2 bertambah 1 satuan memiliki kecenderungan
Keputusan diterima sebesar 1.3654 kali lipat
• Peluang variabel X3 berjenis kelamin perempuan memiliki kecenderungan
Keputusan diterima sebesar 2.8231 kali lipat lipat dibandingkan berjenis
kelamin laki-laki
4.6 Uji Kesesuaian Model
> #Uji Kelayakan Model
> library(ResourceSelection)
> hoslem.test(data1$Y,fitted(modelreglog))
Error in eval(expr, envir, enclos): object 'modelreglog' not foundBerdasarkan fungsi hoslem.test() didapatkan hasil pengujian Hosmer and Lemeshow Goodness of Fit test yang menunjukkan nilai p-value sebesar 0.8066. Dengan ini dapat diambil kesimpulan P-value (0.8066) > (0.05) alpha sehingga HO diterima. Maka dengan ini dapat disimpulkan model yang terbentuk layak digunakan
4.7 Ketepatan Klasifikasi
> crosstab = table(data1$Y, fitted(modelreglog)>0.5)
Error in eval(expr, envir, enclos): object 'modelreglog' not found
> crosstab
Error in eval(expr, envir, enclos): object 'crosstab' not found
Dengan membuat terlebih dahulu ketetapan klasifikasi, dapat ditentukan bahwa: • Dari 5 amatan Y=0 ada 4 yang diklasifikasikan benar • Dari 15 amatan Y=1 ada 14 yang diklasifikasikan dengan benar • Oleh karena itu dapat dihitung tingkat akurasi model yakni sebesar 47.37%
5 Bab V: KESIMPULAN
Berdasarkan hasil pengujian pada data yang telah ditentukan, dapat dihasilkan beberapa poin yakni
• Model regresi Logistik Biner adalah \[ g(x) = ln (\frac{\pi(x)}{1-\pi(x)}) = -5.6999 + 0.6727X1 + 0.3115X2 + 1.0378X3 \] • Faktor yang Berpengaruh Dengan hasil uji signifikansi simultan yang menunjukkan ke-3 variabel prediktor berpengaruh signifikan terhadap variabel respon Keputusan, namun meskipun begitu dengan uji Asumsi Multikolinieritas didapatkan bahwa ke-3 variabel prediktor masih memiliki nilai VIF dibawah 10 dimana ke-3 variabel prediktor masih layak digunakan dalam pemodelan regresi logistik biner. Dan juga didukung oleh tabel klasifikasi dimana akurasi pemodelan menunjukkan akurat seesar 47.37%.
6 DAFTAR PUSTAKA
• Afifah, D. N. (2020). Penerapan metode regresi logistik biner pada kesejahteraan rumah tangga di Kabupaten Mojokerto (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).
• Agresti, A. (1990). Categorical Data Analysis. New York: John Wiley and Sons
• Andi Asari, Z. H. (2023). Pengantar Statistika. Kota Solok: PT MAFY MEDIA LITERASI INDONESIA ANGGOTA IKAPI (041/SBA/2023).
• Hasan, Iqbal, (2001). Pokok-Pokok Materi Statistik 1 (Statistik Deskriptif). Jakarta: PT. Bumi Aksara
• Johnson, R., & Wichern, D. (1992). Applied Multivariate Statistical Analysis. Prentice Hall New Jersey.
• Ramandhani, R., Sudarno, & Safitri, D. (2017). Metode Bootstrap Aggregating Regresi Logistik Biner untuk Ketepatan Klasifikasi Kesejahteraan Rumah Tangga di Kota Pati. Jurnal Gaussian, Vol 6 No 1: 121-124. • Santoso, S. (2012). Analisis SPSS pada Statistik Parametrik. Jakarta: PT. Elex Media Komputiondo.
• Varamita, A. (2017). Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di Rskd Ibu dan Anak Siti Fatimah Makassar. Skripsi Universitas Negeri Makassar.
• Walpole, R. (1995). Pengantar Statistika. Jakarta: Gramedia
• Wijanto, S. (2008). Structural Equation Modeling dengan Lisrel 8.8: Konsep dan Tutorial. Yogyakarta: Graha Ilmu.
• Wahyuni, M. (2020).
STATISTIK DESKRIPTIF untuk PENELITIAN Olah Data Manual dan SPSS Versi
25. Kampar: BINTANG PUSTAKA MADANI.