Analisis Regresi Logistik

Syifa Syalsabillah

2024-05-25

1 PENDAHULUAN

1.1 Latar Belakang

Analisis data berperan penting dalam menyediakan informasi yang berharga untuk mendukung proses pengambilan keputusan. Di antara berbagai metode analisis data, analisis regresi logistik telah menjadi alat yang populer dan kuat untuk memprediksi hasil biner, seperti pass/fail, ya/tidak, atau hidup/mati, berdasarkan variabel independen. Analisis regresi logistik adalah sebuah pendekatan statistik yang digunakan untuk mendalami korelasi antara variabel independen (variabel prediktor) dengan variabel dependen biner (variabel respon). Metode ini bertujuan untuk memperkirakan kemungkinan terjadinya suatu peristiwa berdasarkan faktor-faktor yang terkait.

Analisis regresi logistik merupakan alat yang kuat dan fleksibel untuk memprediksi hasil biner berdasarkan variabel independen. Kemampuan prediktifnya, interpretasi yang mudah, dan kemudahan penggunaannya menjadikan regresi logistik sebagai landasan penting untuk melaksanakan penelitian di berbagai bidang. Berikut beberapa landasan penting untuk untuk melakukan penelitian menggunakan analisis regresi logistik:

  1. Prediksi Risiko dan Kejadian: Analisis regresi logistik memungkinkan peneliti untuk mengidentifikasi faktor-faktor yang berhubungan dengan risiko atau kemungkinan terjadinya suatu kejadian. Misalnya, dalam penelitian kesehatan, analisis regresi logistik dapat digunakan untuk memprediksi risiko terjadinya penyakit berdasarkan faktor-faktor seperti usia, jenis kelamin, riwayat keluarga, dan gaya hidup.

  2. Faktor Penyebab dan Pengaruh: Dalam penelitian sosial atau ekonomi, analisis regresi logistik dapat membantu mengidentifikasi faktor-faktor yang mempengaruhi keputusan atau perilaku tertentu. Contohnya, dalam penelitian pemasaran, analisis regresi logistik dapat digunakan untuk memahami faktor-faktor yang mempengaruhi keputusan konsumen dalam membeli atau menggunakan suatu produk.

  3. Evaluasi Pengaruh Intervensi atau Perlakuan: Analisis regresi logistik juga dapat digunakan untuk mengevaluasi efektivitas suatu intervensi atau perlakuan. Misalnya, dalam penelitian klinis, analisis regresi logistik dapat digunakan untuk mengevaluasi pengaruh suatu pengobatan terhadap penyembuhan atau pemulihan pasien.

  4. Penyaringan dan Pengklasifikasian: Analisis regresi logistik juga dapat digunakan sebagai alat penyaringan atau pengklasifikasian. Misalnya, dalam penelitian diagnostik medis, analisis regresi logistik dapat membantu mengidentifikasi variabel yang paling berhubungan dengan keberadaan atau ketiadaan suatu penyakit, sehingga dapat digunakan sebagai kriteria diagnostik.

Landasan-landasan ini dapat membantu peneliti dalam merancang dan melaksanakan penelitian yang kuat dan valid menggunakan analisis regresi logistik. Pada pelaksanaannya, penelitian menggunakan analisis regresi logistik memerlukan desain penelitian yang teliti, pemilihan variabel yang relevan, ukuran sampel yang memadai, serta keandalan data yang digunakan. Dengan hasil penelitian yang dihasilkan, diharapkan dapat memberikan wawasan lebih dalam tentang interaksi antar variabel dan membantu dalam pengambilan keputusan yang lebih strategis di berbagai bidang.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi

Analisis Regresi merupakan sebuah teknik statistika yang digunakan untuk menginvestigasi dan memodelkan hubungan antarvariabel. Metode ini melibatkan dua komponen utama yang dihubungkan, yaitu variabel respon (Y) atau variabel yang dipengaruhi, dan variabel prediktor (X) atau variabel yang memengaruhi. Beberapa istilah yang sering digunakan dalam literatur meliputi:

  1. Variabel Respon: Variabel ini juga sering disebut sebagai variabel tidak bebas, variabel dependen, atau variabel terikat. Variabel ini adalah variabel yang nilainya dipengaruhi oleh variabel lain dalam model.

  2. Variabel Prediktor: Variabel ini juga dikenal sebagai variabel bebas, variabel independen, atau variabel penjelas. Variabel ini adalah variabel yang digunakan untuk memprediksi atau menjelaskan variasi dalam variabel respon. Biasanya model dari analisis regresi dituliskan sebagai berikut :

\[ Y = \beta_{0} + \beta_1X_1 + \beta_2X_2+...+\beta_nX_n \]

Keterangan :

\(Y\) = Variabel respons (yang dipengaruhi)

\(X_i\) = Variabel prediktor (yang memengaruhi)

\(\beta_0\) = Intercept

\(\beta_i\) = Koefisien regresi variabel prediktor

2.2 Analisis Regresi Logistik Biner

Regresi Logistik merupakn suatu metode analisis statistika yang berfungsi menjelaskan hubungan antara variabel respons (Y) yang memiliki dua kategori atau lebih dengan satu atau lebih variabel prediktor (X) berskala kategori atau kontinu. Regresi logistik dapat dibagi menjadi regresi logistik biner, regresi logistik multinomial dan regresi logistik ordinal. Model regresi logistik biner berfungsi untuk menganalisis hubungan antara satu variabel respon dan beberapa variabel prediktor, dengan variabel responnya berupa data kualitatif dikotomi yaitu bernilai 1 untuk menyatakan keberadaan sebuah karakteristik dan bernilai 0 untuk menyatakan ketidakberadaan sebuah karakteristik. Model regresi logistik biner digunakan saat variabel responnya menghasilkan dua kategori bernilai 0 dan 1, sehingga mengikuti distribusi Bernoulli sebagai berikut :

\[f(y_i) = \pi_{i}^{y_i}(1-\pi_i)^{1-y_i}\]

Keterangan :

\(y_i\) = Variabel respons ke-i (dengan nilai 0 atau 1)

\(\pi_i\) = Peluang kejadian ke-i

Jika analisis regresi logistik terdiri hanya dengan satu variabel prediktor maka model yang terbentuk sebagai berikut :

\[ \pi(X) = \frac{exp(\beta_0 + \beta_1X)}{1- exp(\beta_0+\beta_1X)} \]

Keterangan :

\(\pi(X)\) = Peluang sukses sebagai fungsi logistik dari X (berapapun nilai X, fungsi ini akan bernilai 0 sampai 1

Dari model regresi logistik yang diperoleh dapat ditentukan pula Odds Ratio-nya sebagai berikut :

\[ \frac{\pi(X)}{1-\pi(X)} = exp(\beta_0+\beta_1X) \]

Setelah itu bentuk logit regresi logistik didapat dari hasil transformasi dari bentuk Odds Ratio (OR) :

\[ g(X) = ln(\frac{\pi(X)}{1-\pi(X)})=exp(\beta_0 + \beta_1X) \]

2.3 Asumsi Non Multikolinieritas

Uji asumsi nonmultikolinieritas penting dalam analisis regresi untuk memastikan kestabilan dan keakuratan model. Multikolinieritas, di mana variabel independen saling berkorelasi kuat, dapat menyebabkan estimasi parameter yang tidak stabil, kesalahan standar yang meningkat, dan kesulitan dalam interpretasi model. Salah satu cara umum untuk menguji nonmultikolinieritas adalah dengan menghitung Variance Inflation Factor (VIF) untuk setiap variabel independen. VIF > 10 menunjukkan multikolinearitas yang bermasalah.Dengan memastikan tidak ada multikolinieritas yang signifikan, hasil analisis regresi dapat menjadi lebih stabil, akurat, dan mudah diinterpretasikan, membantu peneliti dalam membuat keputusan yang lebih tepat berdasarkan model regresi yang dihasilkan.

3 SOURCE CODE

3.1 Library

> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(equatiomatic)
Error in library(equatiomatic): there is no package called 'equatiomatic'

3.2 Data

Berikut merupakan data yang akan digunakan untuk analisis regresi logistik

> Y <- c(1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
+        1, 0, 0, 1, 0, 1, 0, 1,  1, 1, 1) 
> Y
 [1] 1 1 0 1 0 0 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 1 1 1 1
> 
> X1<- c(78, 89, 67, 83, 73, 75, 86, 77, 91, 80,  79,  84, 72, 90, 76,
+        69, 81, 75, 69, 78, 91, 83, 85, 75, 87, 70, 74, 84, 91, 86)
> X1       
 [1] 78 89 67 83 73 75 86 77 91 80 79 84 72 90 76 69 81 75 69 78 91 83 85 75 87
[26] 70 74 84 91 86
>        
> X2<- c(75, 80, 64, 73, 72, 69, 90, 81, 79, 77, 83, 67, 84, 68, 84, 90,
+        70, 68, 79, 80, 76, 85, 65, 87, 70, 78, 60, 69, 88, 74)
> X2
 [1] 75 80 64 73 72 69 90 81 79 77 83 67 84 68 84 90 70 68 79 80 76 85 65 87 70
[26] 78 60 69 88 74
> 
> X3<- c(120, 115, 120, 121, 113, 110, 120, 105, 111, 119, 123, 118, 117,
+        112, 120, 108, 110, 117, 120, 106, 113, 119, 121, 116, 109, 115, 118,
+        120, 120, 115)
> X3
 [1] 120 115 120 121 113 110 120 105 111 119 123 118 117 112 120 108 110 117 120
[20] 106 113 119 121 116 109 115 118 120 120 115
> 
> X4<- c(85, 75, 87, 70, 74, 84, 91, 77, 91, 80, 76, 77, 89, 84, 85, 80,
+        79, 78, 70, 72, 83, 88, 79, 81, 80, 90, 89, 74, 75, 85)
> X4
 [1] 85 75 87 70 74 84 91 77 91 80 76 77 89 84 85 80 79 78 70 72 83 88 79 81 80
[26] 90 89 74 75 85
> 
> datareglog <- data.frame(Y, X1, X2, X3, X4)
> datareglog
   Y X1 X2  X3 X4
1  1 78 75 120 85
2  1 89 80 115 75
3  0 67 64 120 87
4  1 83 73 121 70
5  0 73 72 113 74
6  0 75 69 110 84
7  1 86 90 120 91
8  0 77 81 105 77
9  1 91 79 111 91
10 1 80 77 119 80
11 0 79 83 123 76
12 0 84 67 118 77
13 0 72 84 117 89
14 1 90 68 112 84
15 1 76 84 120 85
16 0 69 90 108 80
17 1 81 70 110 79
18 0 75 68 117 78
19 1 69 79 120 70
20 1 78 80 106 72
21 0 91 76 113 83
22 0 83 85 119 88
23 1 85 65 121 79
24 0 75 87 116 81
25 1 87 70 109 80
26 0 70 78 115 90
27 1 74 60 118 89
28 1 84 69 120 74
29 1 91 88 120 75
30 1 86 74 115 85
> str(datareglog)
'data.frame':   30 obs. of  5 variables:
 $ Y : num  1 1 0 1 0 0 1 0 1 1 ...
 $ X1: num  78 89 67 83 73 75 86 77 91 80 ...
 $ X2: num  75 80 64 73 72 69 90 81 79 77 ...
 $ X3: num  120 115 120 121 113 110 120 105 111 119 ...
 $ X4: num  85 75 87 70 74 84 91 77 91 80 ...
> head(datareglog)
  Y X1 X2  X3 X4
1 1 78 75 120 85
2 1 89 80 115 75
3 0 67 64 120 87
4 1 83 73 121 70
5 0 73 72 113 74
6 0 75 69 110 84

Keterangan :

\(Y\)= Kepuasan pengguna oleh provider (1 = Iya, 0 = Tidak)

\(X1\) = kekuatan sinyal

\(X2\) = Harga

\(X3\) = fitur-fitur yang di promosikan

\(X4\) = call center

Sumber : < https://www.scribd.com/document/385008296/Contoh-Soal-Regresi-Logistik >

3.3 Analisis

> reg_log<-glm(Y~X1+X2+X3+X4,family=binomial,data= datareglog)
> summary(reg_log)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datareglog)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.9788  -0.8429   0.5004   0.8818   1.4444  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)  
(Intercept) -14.38156   12.64323  -1.137   0.2553  
X1            0.16033    0.06731   2.382   0.0172 *
X2           -0.03677    0.05508  -0.668   0.5044  
X3            0.07737    0.08914   0.868   0.3854  
X4           -0.05243    0.07084  -0.740   0.4592  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 41.054  on 29  degrees of freedom
Residual deviance: 32.328  on 25  degrees of freedom
AIC: 42.328

Number of Fisher Scoring iterations: 4
> 
> #Hasil R-Squared
> Rsq<-1-(32.328/41.054)
> Rsq
[1] 0.2125493
> 
> #Pembetukan tabel berisi penduga parameter
> beta<- coef(reg_log)
> OR_beta<-exp(beta)
> OR_beta
 (Intercept)           X1           X2           X3           X4 
5.677655e-07 1.173900e+00 9.638991e-01 1.080446e+00 9.489189e-01 
> sk_OR<-exp(confint(reg_log))
> cbind(beta,OR_beta,sk_OR)
                    beta      OR_beta        2.5 %       97.5 %
(Intercept) -14.38155744 5.677655e-07 9.139809e-19 15901.572467
X1            0.16033158 1.173900e+00 1.041474e+00     1.366189
X2           -0.03676866 9.638991e-01 8.602226e-01     1.075266
X3            0.07737347 1.080446e+00 9.121104e-01     1.309507
X4           -0.05243197 9.489189e-01 8.184634e-01     1.089710
> 
> #Klasifikasi Model
> yp_hat <- fitted(reg_log)
> datareglog$yp_hat<- yp_hat
> kelas <- table(datareglog$Y,datareglog$yp_hat> 0.5)
> kelas
   
    FALSE TRUE
  0     8    5
  1     4   13

3.4 UJI ASUMSI

> #Asumsi Nonmultikolinieritas
> install.packages("car")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> library(car)
> model <- glm(Y~X1+X2+X3+X4, data = datareglog, family = binomial)
> model

Call:  glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datareglog)

Coefficients:
(Intercept)           X1           X2           X3           X4  
  -14.38156      0.16033     -0.03677      0.07737     -0.05243  

Degrees of Freedom: 29 Total (i.e. Null);  25 Residual
Null Deviance:      41.05 
Residual Deviance: 32.33    AIC: 42.33
> vif(model)
      X1       X2       X3       X4 
1.039521 1.019615 1.038193 1.038817 

4 HASIL DAN PEMBAHASAN

4.1 Model Logit

Berdasarkan hasil output di atas model logit yang terbentuk sebagai berikut

\[ Logit[\hat{\pi}(X)] = -14.38156 + 0.16033X_1 - 0.03677X_2 + 0.07737X_3 - 0.05243X4 \]

Intrepetasi :

Karena \(\beta_1\) bernilai positif, setiap kenaikan 1 variabel kekuatan sinyal akan meningkatkan peluang kepuasan pengguna oleh provider tersebut.

\(\beta_2\) bernilai negatif, setiap kenaikan 1 variabel harga akan menurunkan peluang kepuasan pengguna oleh provider tersebut.

\(\beta_3\) bernilai positif, setiap kenaikan 1 variabel fitur-fitur yang di promosikan akan meningkatkan peluang kepuasan pengguna oleh provider tersebut.

\(\beta_4\) bernilai negatif, setiap kenaikan 1 variabel call center (costumer service) akan menurunkan peluang kepuasan pengguna oleh provider tersebut.

4.2 Uji Parsial

Nilai p untuk variabel prediktor \(X_1\),\(X_2\),\(X_3\),\(X_4\) yang diperoleh pada hasil output tersebut :

> 0.0172
[1] 0.0172
> 0.5044 
[1] 0.5044
> 0.3854 
[1] 0.3854
> 0.4592  
[1] 0.4592

Intrepetasi :

Dengan taraf nyata sebesar 5% dapat dibuktikan bahwa kekuatan sinyal memberikan pengaruh yang signifikan terhadap Kepuasan pengguna oleh provider tersebut.Sementara harga, fitur-fitur yang di promosikan, dan call center kurang signifikan terhadap Kepuasan pengguna oleh provider tersebut.

4.3 R-Squared

Hasil R-Squared yang didapat :

> Rsq
[1] 0.2125493

Intrepetasi :

Pengaruh layanan provider komunikasi hanya 21% pada kepuasan pelanggan.

4.4 Odds Ratio

Odds Ratio yang dihasilkan oleh output sebagai berikut :

> OR_beta
 (Intercept)           X1           X2           X3           X4 
5.677655e-07 1.173900e+00 9.638991e-01 1.080446e+00 9.489189e-01 

Intrepetasi :

Jika kekuatan sinyal naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 1.1739 kali. Jika harga naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 0.9638991 kali. Jika fitur-fitur yang di promosikan naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 1.080446 kali. Jika fitur-fitur yang di promosikan naik 1 unit,maka kecenderungan kepuasan pengguna oleh provider tersebut meningkat 0.9489189 kali. semakin baik kekuatan sinyal maka potensi kepuasan pengguna oleh provider tersebut akan meningkat.

4.5 Klasifikasi Model

Klasifikasi model yang didapatkan pada output sebagai berikut :

> kelas
   
    FALSE TRUE
  0     8    5
  1     4   13

Intrepetasi :

  • Dari 13 amatan \(Y = 0\) yang dihasilkan, hanya 5 amatan yang terklasifikasi sebagai benar

  • Dari 17 amatan \(Y = 1\) yang dihasilkan, 13 amatan yang terklasifikasi sebagai benar

4.6 UJI ASUMSI

5 Asumsi Non Multikolinieritas

Dari hasil uji asumsi nonmultikolinieritas didapatkan nilai asumsi nonmultikolinieritas untuk setiap variabel secara berturut turut yaitu :

> vif(model)
      X1       X2       X3       X4 
1.039521 1.019615 1.038193 1.038817 

6 KESIMPULAN

Dari hasil perhitungan analisis regresi logistik yang sudah lakukan bisa disimpulkan bahwa variabel prediktor {kekuatan sinyal (X1), harga (X2), fitur-fitur yang di promosikan (X3), call center (costumer service) (X4)} cukup berpengaruh terhadap variabel respons (Kepuasan pengguna oleh provider tersebut ) yang berarti bahwa layanan provider komunikasi berpengaruh dengan kepuasan pelanggan.Dimana untuk pengujian secara sendiri-sendiri kekuatan sinyal memberikan pengaruh yang signifikan terhadap Kepuasan pengguna oleh provider tersebut.Sementara harga, fitur-fitur yang di promosikan, dan call center kurang signifikan terhadap Kepuasan pengguna oleh provider tersebut.

7 DAFTAR PUSTAKA

Menard, S. (2002).Logistic regression: Applications and examples . Thousand Oaks, CA: Sage Publications.

Achmad Efendi, Ni Wayan Surya Wardhani, Rahma Fitriani, Eni Sumarminingsih. (2020). Analisis Regresi : Teori dan Aplikasi dalam R. Malang: Universitas Brawijaya Press.

Setyawati, Dwi Utami, Baiq Dewi Korida, and Baiq Rika Ayu Febrilia. “Analisis Regresi Logistik Ordinal Faktor-Faktor yang Mempengaruhi IPK Mahasiswa.” Jurnal Varian 3.2 (2020): 65-72.