1 PENDAHULUAN
1.1 Latar Belakang
Analisis data berperan penting dalam menyediakan informasi yang berharga untuk mendukung proses pengambilan keputusan. Di antara berbagai metode analisis data, analisis regresi logistik telah menjadi alat yang populer dan kuat untuk memprediksi hasil biner, seperti pass/fail, ya/tidak, atau hidup/mati, berdasarkan variabel independen. Analisis regresi logistik adalah sebuah pendekatan statistik yang digunakan untuk mendalami korelasi antara variabel independen (variabel prediktor) dengan variabel dependen biner (variabel respon). Metode ini bertujuan untuk memperkirakan kemungkinan terjadinya suatu peristiwa berdasarkan faktor-faktor yang terkait.
Analisis regresi logistik merupakan alat yang kuat dan fleksibel untuk memprediksi hasil biner berdasarkan variabel independen. Kemampuan prediktifnya, interpretasi yang mudah, dan kemudahan penggunaannya menjadikan regresi logistik sebagai landasan penting untuk melaksanakan penelitian di berbagai bidang. Berikut beberapa landasan penting untuk untuk melakukan penelitian menggunakan analisis regresi logistik:
Prediksi Risiko dan Kejadian: Analisis regresi logistik memungkinkan peneliti untuk mengidentifikasi faktor-faktor yang berhubungan dengan risiko atau kemungkinan terjadinya suatu kejadian. Misalnya, dalam penelitian kesehatan, analisis regresi logistik dapat digunakan untuk memprediksi risiko terjadinya penyakit berdasarkan faktor-faktor seperti usia, jenis kelamin, riwayat keluarga, dan gaya hidup.
Faktor Penyebab dan Pengaruh: Dalam penelitian sosial atau ekonomi, analisis regresi logistik dapat membantu mengidentifikasi faktor-faktor yang mempengaruhi keputusan atau perilaku tertentu. Contohnya, dalam penelitian pemasaran, analisis regresi logistik dapat digunakan untuk memahami faktor-faktor yang mempengaruhi keputusan konsumen dalam membeli atau menggunakan suatu produk.
Evaluasi Pengaruh Intervensi atau Perlakuan: Analisis regresi logistik juga dapat digunakan untuk mengevaluasi efektivitas suatu intervensi atau perlakuan. Misalnya, dalam penelitian klinis, analisis regresi logistik dapat digunakan untuk mengevaluasi pengaruh suatu pengobatan terhadap penyembuhan atau pemulihan pasien.
Penyaringan dan Pengklasifikasian: Analisis regresi logistik juga dapat digunakan sebagai alat penyaringan atau pengklasifikasian. Misalnya, dalam penelitian diagnostik medis, analisis regresi logistik dapat membantu mengidentifikasi variabel yang paling berhubungan dengan keberadaan atau ketiadaan suatu penyakit, sehingga dapat digunakan sebagai kriteria diagnostik.
Landasan-landasan ini dapat membantu peneliti dalam merancang dan melaksanakan penelitian yang kuat dan valid menggunakan analisis regresi logistik. Pada pelaksanaannya, penelitian menggunakan analisis regresi logistik memerlukan desain penelitian yang teliti, pemilihan variabel yang relevan, ukuran sampel yang memadai, serta keandalan data yang digunakan. Dengan hasil penelitian yang dihasilkan, diharapkan dapat memberikan wawasan lebih dalam tentang interaksi antar variabel dan membantu dalam pengambilan keputusan yang lebih strategis di berbagai bidang.
2 TINJAUAN PUSTAKA
2.1 Analisis Regresi
Analisis Regresi merupakan sebuah teknik statistika yang digunakan untuk menginvestigasi dan memodelkan hubungan antarvariabel. Metode ini melibatkan dua komponen utama yang dihubungkan, yaitu variabel respon (Y) atau variabel yang dipengaruhi, dan variabel prediktor (X) atau variabel yang memengaruhi. Beberapa istilah yang sering digunakan dalam literatur meliputi:
Variabel Respon: Variabel ini juga sering disebut sebagai variabel tidak bebas, variabel dependen, atau variabel terikat. Variabel ini adalah variabel yang nilainya dipengaruhi oleh variabel lain dalam model.
Variabel Prediktor: Variabel ini juga dikenal sebagai variabel bebas, variabel independen, atau variabel penjelas. Variabel ini adalah variabel yang digunakan untuk memprediksi atau menjelaskan variasi dalam variabel respon. Biasanya model dari analisis regresi dituliskan sebagai berikut :
\[ Y = \beta_{0} + \beta_1X_1 + \beta_2X_2+...+\beta_nX_n \]
Keterangan :
\(Y\) = Variabel respons (yang dipengaruhi)
\(X_i\) = Variabel prediktor (yang memengaruhi)
\(\beta_0\) = Intercept
\(\beta_i\) = Koefisien regresi variabel prediktor
2.2 Analisis Regresi Logistik Biner
Regresi Logistik merupakn suatu metode analisis statistika yang berfungsi menjelaskan hubungan antara variabel respons (Y) yang memiliki dua kategori atau lebih dengan satu atau lebih variabel prediktor (X) berskala kategori atau kontinu. Regresi logistik dapat dibagi menjadi regresi logistik biner, regresi logistik multinomial dan regresi logistik ordinal. Model regresi logistik biner berfungsi untuk menganalisis hubungan antara satu variabel respon dan beberapa variabel prediktor, dengan variabel responnya berupa data kualitatif dikotomi yaitu bernilai 1 untuk menyatakan keberadaan sebuah karakteristik dan bernilai 0 untuk menyatakan ketidakberadaan sebuah karakteristik. Model regresi logistik biner digunakan saat variabel responnya menghasilkan dua kategori bernilai 0 dan 1, sehingga mengikuti distribusi Bernoulli sebagai berikut :
\[f(y_i) = \pi_{i}^{y_i}(1-\pi_i)^{1-y_i}\]
Keterangan :
\(y_i\) = Variabel respons ke-i (dengan nilai 0 atau 1)
\(\pi_i\) = Peluang kejadian ke-i
Jika analisis regresi logistik terdiri hanya dengan satu variabel prediktor maka model yang terbentuk sebagai berikut :
\[ \pi(X) = \frac{exp(\beta_0 + \beta_1X)}{1- exp(\beta_0+\beta_1X)} \]
Keterangan :
\(\pi(X)\) = Peluang sukses sebagai fungsi logistik dari X (berapapun nilai X, fungsi ini akan bernilai 0 sampai 1
Dari model regresi logistik yang diperoleh dapat ditentukan pula Odds Ratio-nya sebagai berikut :
\[ \frac{\pi(X)}{1-\pi(X)} = exp(\beta_0+\beta_1X) \]
Setelah itu bentuk logit regresi logistik didapat dari hasil transformasi dari bentuk Odds Ratio (OR) :
\[
g(X) = ln(\frac{\pi(X)}{1-\pi(X)})=exp(\beta_0 + \beta_1X)
\]
2.3 Asumsi Non Multikolinieritas
Uji asumsi nonmultikolinieritas penting dalam analisis regresi untuk memastikan kestabilan dan keakuratan model. Multikolinieritas, di mana variabel independen saling berkorelasi kuat, dapat menyebabkan estimasi parameter yang tidak stabil, kesalahan standar yang meningkat, dan kesulitan dalam interpretasi model. Salah satu cara umum untuk menguji nonmultikolinieritas adalah dengan menghitung Variance Inflation Factor (VIF) untuk setiap variabel independen. VIF > 10 menunjukkan multikolinearitas yang bermasalah.Dengan memastikan tidak ada multikolinieritas yang signifikan, hasil analisis regresi dapat menjadi lebih stabil, akurat, dan mudah diinterpretasikan, membantu peneliti dalam membuat keputusan yang lebih tepat berdasarkan model regresi yang dihasilkan.
3 SOURCE CODE
3.1 Library
3.2 Data
Berikut merupakan data yang akan digunakan untuk analisis regresi logistik
> Y <- c(1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
+ 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1)
> Y
[1] 1 1 0 1 0 0 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 1 1 1 1
>
> X1<- c(78, 89, 67, 83, 73, 75, 86, 77, 91, 80, 79, 84, 72, 90, 76,
+ 69, 81, 75, 69, 78, 91, 83, 85, 75, 87, 70, 74, 84, 91, 86)
> X1
[1] 78 89 67 83 73 75 86 77 91 80 79 84 72 90 76 69 81 75 69 78 91 83 85 75 87
[26] 70 74 84 91 86
>
> X2<- c(75, 80, 64, 73, 72, 69, 90, 81, 79, 77, 83, 67, 84, 68, 84, 90,
+ 70, 68, 79, 80, 76, 85, 65, 87, 70, 78, 60, 69, 88, 74)
> X2
[1] 75 80 64 73 72 69 90 81 79 77 83 67 84 68 84 90 70 68 79 80 76 85 65 87 70
[26] 78 60 69 88 74
>
> X3<- c(120, 115, 120, 121, 113, 110, 120, 105, 111, 119, 123, 118, 117,
+ 112, 120, 108, 110, 117, 120, 106, 113, 119, 121, 116, 109, 115, 118,
+ 120, 120, 115)
> X3
[1] 120 115 120 121 113 110 120 105 111 119 123 118 117 112 120 108 110 117 120
[20] 106 113 119 121 116 109 115 118 120 120 115
>
> X4<- c(85, 75, 87, 70, 74, 84, 91, 77, 91, 80, 76, 77, 89, 84, 85, 80,
+ 79, 78, 70, 72, 83, 88, 79, 81, 80, 90, 89, 74, 75, 85)
> X4
[1] 85 75 87 70 74 84 91 77 91 80 76 77 89 84 85 80 79 78 70 72 83 88 79 81 80
[26] 90 89 74 75 85
>
> datareglog <- data.frame(Y, X1, X2, X3, X4)
> datareglog
Y X1 X2 X3 X4
1 1 78 75 120 85
2 1 89 80 115 75
3 0 67 64 120 87
4 1 83 73 121 70
5 0 73 72 113 74
6 0 75 69 110 84
7 1 86 90 120 91
8 0 77 81 105 77
9 1 91 79 111 91
10 1 80 77 119 80
11 0 79 83 123 76
12 0 84 67 118 77
13 0 72 84 117 89
14 1 90 68 112 84
15 1 76 84 120 85
16 0 69 90 108 80
17 1 81 70 110 79
18 0 75 68 117 78
19 1 69 79 120 70
20 1 78 80 106 72
21 0 91 76 113 83
22 0 83 85 119 88
23 1 85 65 121 79
24 0 75 87 116 81
25 1 87 70 109 80
26 0 70 78 115 90
27 1 74 60 118 89
28 1 84 69 120 74
29 1 91 88 120 75
30 1 86 74 115 85
> str(datareglog)
'data.frame': 30 obs. of 5 variables:
$ Y : num 1 1 0 1 0 0 1 0 1 1 ...
$ X1: num 78 89 67 83 73 75 86 77 91 80 ...
$ X2: num 75 80 64 73 72 69 90 81 79 77 ...
$ X3: num 120 115 120 121 113 110 120 105 111 119 ...
$ X4: num 85 75 87 70 74 84 91 77 91 80 ...
> head(datareglog)
Y X1 X2 X3 X4
1 1 78 75 120 85
2 1 89 80 115 75
3 0 67 64 120 87
4 1 83 73 121 70
5 0 73 72 113 74
6 0 75 69 110 84Keterangan :
\(Y\)= Kepuasan pengguna oleh provider (1 = Iya, 0 = Tidak)
\(X1\) = kekuatan sinyal
\(X2\) = Harga
\(X3\) = fitur-fitur yang di promosikan
\(X4\) = call center
Sumber : < https://www.scribd.com/document/385008296/Contoh-Soal-Regresi-Logistik >
3.3 Analisis
> reg_log<-glm(Y~X1+X2+X3+X4,family=binomial,data= datareglog)
> summary(reg_log)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datareglog)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.9788 -0.8429 0.5004 0.8818 1.4444
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -14.38156 12.64323 -1.137 0.2553
X1 0.16033 0.06731 2.382 0.0172 *
X2 -0.03677 0.05508 -0.668 0.5044
X3 0.07737 0.08914 0.868 0.3854
X4 -0.05243 0.07084 -0.740 0.4592
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.054 on 29 degrees of freedom
Residual deviance: 32.328 on 25 degrees of freedom
AIC: 42.328
Number of Fisher Scoring iterations: 4
>
> #Hasil R-Squared
> Rsq<-1-(32.328/41.054)
> Rsq
[1] 0.2125493
>
> #Pembetukan tabel berisi penduga parameter
> beta<- coef(reg_log)
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X2 X3 X4
5.677655e-07 1.173900e+00 9.638991e-01 1.080446e+00 9.489189e-01
> sk_OR<-exp(confint(reg_log))
> cbind(beta,OR_beta,sk_OR)
beta OR_beta 2.5 % 97.5 %
(Intercept) -14.38155744 5.677655e-07 9.139809e-19 15901.572467
X1 0.16033158 1.173900e+00 1.041474e+00 1.366189
X2 -0.03676866 9.638991e-01 8.602226e-01 1.075266
X3 0.07737347 1.080446e+00 9.121104e-01 1.309507
X4 -0.05243197 9.489189e-01 8.184634e-01 1.089710
>
> #Klasifikasi Model
> yp_hat <- fitted(reg_log)
> datareglog$yp_hat<- yp_hat
> kelas <- table(datareglog$Y,datareglog$yp_hat> 0.5)
> kelas
FALSE TRUE
0 8 5
1 4 133.4 UJI ASUMSI
> #Asumsi Nonmultikolinieritas
> install.packages("car")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> library(car)
> model <- glm(Y~X1+X2+X3+X4, data = datareglog, family = binomial)
> model
Call: glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datareglog)
Coefficients:
(Intercept) X1 X2 X3 X4
-14.38156 0.16033 -0.03677 0.07737 -0.05243
Degrees of Freedom: 29 Total (i.e. Null); 25 Residual
Null Deviance: 41.05
Residual Deviance: 32.33 AIC: 42.33
> vif(model)
X1 X2 X3 X4
1.039521 1.019615 1.038193 1.038817 4 HASIL DAN PEMBAHASAN
4.1 Model Logit
Berdasarkan hasil output di atas model logit yang terbentuk sebagai berikut
\[ Logit[\hat{\pi}(X)] = -14.38156 + 0.16033X_1 - 0.03677X_2 + 0.07737X_3 - 0.05243X4 \]
Intrepetasi :
Karena \(\beta_1\) bernilai positif, setiap kenaikan 1 variabel kekuatan sinyal akan meningkatkan peluang kepuasan pengguna oleh provider tersebut.
\(\beta_2\) bernilai negatif, setiap kenaikan 1 variabel harga akan menurunkan peluang kepuasan pengguna oleh provider tersebut.
\(\beta_3\) bernilai positif, setiap kenaikan 1 variabel fitur-fitur yang di promosikan akan meningkatkan peluang kepuasan pengguna oleh provider tersebut.
\(\beta_4\) bernilai negatif, setiap kenaikan 1 variabel call center (costumer service) akan menurunkan peluang kepuasan pengguna oleh provider tersebut.
4.2 Uji Parsial
Nilai p untuk variabel prediktor \(X_1\),\(X_2\),\(X_3\),\(X_4\) yang diperoleh pada hasil output tersebut :
Intrepetasi :
Dengan taraf nyata sebesar 5% dapat dibuktikan bahwa kekuatan sinyal memberikan pengaruh yang signifikan terhadap Kepuasan pengguna oleh provider tersebut.Sementara harga, fitur-fitur yang di promosikan, dan call center kurang signifikan terhadap Kepuasan pengguna oleh provider tersebut.
4.3 R-Squared
Hasil R-Squared yang didapat :
Intrepetasi :
Pengaruh layanan provider komunikasi hanya 21% pada kepuasan pelanggan.
4.4 Odds Ratio
Odds Ratio yang dihasilkan oleh output sebagai berikut :
Intrepetasi :
Jika kekuatan sinyal naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 1.1739 kali. Jika harga naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 0.9638991 kali. Jika fitur-fitur yang di promosikan naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 1.080446 kali. Jika fitur-fitur yang di promosikan naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 0.9489189 kali. semakin baik kekuatan sinyal maka potensi kepuasan pengguna oleh provider tersebut akan meningkat.
4.5 Klasifikasi Model
Klasifikasi model yang didapatkan pada output sebagai berikut :
Intrepetasi :
Dari 13 amatan \(Y = 0\) yang dihasilkan, hanya 5 amatan yang terklasifikasi sebagai benar
Dari 17 amatan \(Y = 1\) yang dihasilkan, 13 amatan yang terklasifikasi sebagai benar
4.6 UJI ASUMSI
5 Asumsi Non Multikolinieritas
Dari hasil uji asumsi nonmultikolinieritas didapatkan nilai asumsi nonmultikolinieritas untuk setiap variabel secara berturut turut yaitu :
6 KESIMPULAN
Dari hasil perhitungan analisis regresi logistik yang sudah lakukan bisa disimpulkan bahwa variabel prediktor {kekuatan sinyal (X1), harga (X2), fitur-fitur yang di promosikan (X3), call center (costumer service) (X4)} cukup berpengaruh terhadap variabel respons (Kepuasan pengguna oleh provider tersebut ) yang berarti bahwa layanan provider komunikasi berpengaruh dengan kepuasan pelanggan.Dimana untuk pengujian secara sendiri-sendiri kekuatan sinyal memberikan pengaruh yang signifikan terhadap Kepuasan pengguna oleh provider tersebut.Sementara harga, fitur-fitur yang di promosikan, dan call center kurang signifikan terhadap Kepuasan pengguna oleh provider tersebut.
7 DAFTAR PUSTAKA
Menard, S. (2002).Logistic regression: Applications and examples . Thousand Oaks, CA: Sage Publications.
Achmad Efendi, Ni Wayan Surya Wardhani, Rahma Fitriani, Eni Sumarminingsih. (2020). Analisis Regresi : Teori dan Aplikasi dalam R. Malang: Universitas Brawijaya Press.
Setyawati, Dwi Utami, Baiq Dewi Korida, and Baiq Rika Ayu Febrilia. “Analisis Regresi Logistik Ordinal Faktor-Faktor yang Mempengaruhi IPK Mahasiswa.” Jurnal Varian 3.2 (2020): 65-72.