BAB I : Pendahuluan

1.1. Latar Belakang

Analisis regresi non-linier merupakan analisis regresi yang mempelajari hubungan antara variabel respon yang bersifat kategorik dengan satu atau beberapa variabel prediktor yang bersifat kategorik/kontinu/campuran. Analisis regresi non-linier digunakan untuk memprediksi kemungkinan suatu kejadian terjadi atau tidak dengan menggunakan model matematis.

Penggunaan regresi non-linier terdiri dari beberapa jenis. Pada laporan ini, digunakan analisis regresi logistik biner yang merupakan salah satu jenis analisis regresi non-linier dengan variabel respon bersifat biner, bernilai 0 dan 1. Analisis regresi logistik cukup sering digunakan pada bidang sosial dan humanoria karena variabel respon yang menjadi tujuan penelitiannya bersifat kategorikal. Tetapi, tidak menutup kemungkinan analisis regresi logistik tidak digunakan dalam bidang sains dan teknologi.

Dalam laporan ini, digunakan dataset terkait dengan pembelian barang/jasa yang ditawarkan melalui online advertisement dengan pengkodean secara biner. Komponen yang terbentuk dari dataset tersebut adalah variabel prediktor yang berupa jenis kelamin, umur, serta perkiraan pendatapat seseorang. Sedangkan, digunakan variabel pembelian sebagai variabel respon.

BAB II : Tinjauan Pustaka

2.1. Analisis Regresi

Analisis regresi merupakan salah satu analisis statistika yang digunakan untuk memeriksa dan memodelkan hubungan antar variabel. Analisis regresi terdiri dari dua komponen, yaitu variabel respon (Y) atau terikat dan variabel prediktor (X) atau bebas. Tujuan dilakukannya analisis regresi adalah untuk mendeskripsikan data, menaksirkan parameter, memprediksi variabel respon, serta melakukan kontrol.

Model yang dibangun dalam analisis regresi umumnya sebagai berikut: \[ Y=\beta_o+\beta_1X+...+\beta_nX_n \] dengan keterangan sebagai berikut:

\(Y\) = Variabel respon atau terikat

\(X_i\) = Variabel prediktor atau bebas

\(\beta_0\) = Intercept

\(\beta_i\) = Koefisien regresi pada variabel prediktor (X)

2.2. Analisis Regresi Non-linier

Analisis regresi non-linier memiliki pengertian yang serupa dengan analisis regresi pada umumnya. Bedanya, pada analisis regresi klasik, data variabel respon yang digunakan harus berskala minimal interval. Sedangkan, cukup banyak penelitian yang menggunakan variabel kualitatif pada penelitiannya. Maka dari itu, dapat digunakan regresi non-linier untuk menganalisa hubungan antar kedua komponen tersebut.

2.3. Analisis Regresi Logistik Biner

Analisis regresi logistik biner merupakan salah satu jenis analisis regresi non-linier yang mempunyai variable respon berupa variabel biner dengan cara mengategorikan variabel respon ke dalam dua kategori. Model dibangun dari bentuk log(odd) pada bentuk model regresi peluang linier. Tujuan dari dibuatnya model regresi logistik biner adalah untuk memprediksi nilai peluang terjadinya suatu kejadian berdasarkan pada variabel prediktornya.

Model yang dibagun dari analisis regresi logistik biner adalah sebagai berikut: \[ \pi(x_i)=P(Y=i|x_i)=\frac{exp[g(x_i)]}{1-exp[g(x_i)]} \] dengan fungsi logitnya adalah: \[ g(x_i)=ln(\frac{\pi(x_i)}{1-\pi(x_i)}) \] dengan keterangan:

\(\pi(x_i)\) = Peluang fungsi logistik bagi \(x_i\)

\(g(x_i)\) = \(\beta_0+\beta_1X_i+...+\beta_nX_i\)

BAB III : Source Code

3.1. Library

> library(readxl)
> library(pscl)
> library(generalhoslem)

3.2. Data

Dataset yang digunakan dalam kasus ini memiliki beberapa variabel. Berikut merupakan penjelasan terkait variabel yang ada pada dataset.

\(X_1\) = Gender (1 = male, 0 = female)

\(X_2\) = Age

\(X_3\) = Estimated Salary

\(Y\) = Purchased (1 = iya, 0 = tidak)

Sumber : https://www.kaggle.com/datasets/dragonheir/logistic-regression/data

3.3. Analisis

> #Pembentukan model
> model<-glm(Purchased~Gender+Age+EstimatedSalary,
+         data=Social_Network_Ads, family=binomial)
> summary(model) #untuk menampilkan ringkasan dari model yang telah dibentuk
> 
> #Perhitungan likelihood ratio
> pR2(model) 
> qchisq(0.95,2) #untuk menampilkan titik kritis chi-square dengan derajat bebas 2
> 
> #Perhitungan odds ratio
> beta<-coef(model)
> OR_beta<-exp(beta)
> cbind(beta,OR_beta)
> 
> #Perhitungan R-square
> Rsq <- 1 -(model$deviance/model$null.deviance)
> 
> #Ketepatan dalam pengklasifikasian
> yp_hat<-fitted(model)
> Social_Network_Ads$yp_hat<-yp_hat
> class<-table(Social_Network_Ads$Purchased,Social_Network_Ads$yp_hat>0.5)
> 
> #uji kelayakan model
> logitgof(Social_Network_Ads$Purchased,fitted(model))

BAB IV : Hasil dan Pembahasan

4.1. Model Logit

Berdasarkan pada source code di atas, didapatkan ringkasan dari model sebagai berikut:

> summary(model)

Call:
glm(formula = Purchased ~ Gender + Age + EstimatedSalary, family = binomial, 
    data = Social_Network_Ads)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9109  -0.5218  -0.1406   0.3662   2.4254  

Coefficients:
                  Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -1.278e+01  1.359e+00  -9.405  < 2e-16 ***
Gender           3.338e-01  3.052e-01   1.094    0.274    
Age              2.370e-01  2.638e-02   8.984  < 2e-16 ***
EstimatedSalary  3.644e-05  5.473e-06   6.659 2.77e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 521.57  on 399  degrees of freedom
Residual deviance: 275.84  on 396  degrees of freedom
AIC: 283.84

Number of Fisher Scoring iterations: 6

Dari hasil berikut, maka dapat dibentuk model logitnya sebagai berikut:

\[ g(x_i)=ln(\frac{\pi(x_i)}{1-\pi(x_i)})=-12,78+0,33X_1+0,24X_2+0,00004X_3 \] Interpretasi dari model di atas adalah:

  1. Jika orang tersebut berjenis kelamin perempuan yang umurnya belum genap satu tahun serta tidak memiliki pengahsilan apapun maka nilai \(g(x_i)\)-nya adalah -12,78.

  2. Jika orang tersebut berjenis kelamin laki-laki maka nilai \(g(x_i)\)-nya bertambah 0,33.

  3. Setiap bertambah satu umur seseorang akan meningkatkan nilai \(g(x_i)\)-nya sebesar 0,24.

  4. Setiap bertambah satu perkiraan pendapatan seseorang akan menaikkan \(g(x_i)\)-nya sebesar 0,00004.

4.2. Uji Signifikansi Parameter secara Simultan

Hipotesis yang diuji adalah:

\(H_0:\beta_0=\beta_1=\beta_2=\beta_3=0\)

\(H_1:\) Setidaknya terdapat satu \(\beta_j\neq0,\) \((j=0,1,2,3)\)

> pR2(model) 
fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-137.9216127 -260.7864829  245.7297404    0.4711320    0.4589937    0.6300204 
> qchisq(0.95,2)
[1] 5.991465

Berdasarkan pada hasil tersebut, didapatkan nilai likelihood ratio-nya adalah 245,7297 (diambil dari nilai \(G^2\)) yang lebih dari 5,99 sehingga \(H_0\) berhasil ditolak pada taraf 5%. Dapat disimpulkan bahwa setidaknya terdapat satu koefisien beta yang memiliki pengaruh terhadap pembelian.

4.3. Uji Signifikansi Parameter secara Parsial

Hipotesis yang diuji adalah:

\(H_0:\beta_j=0,\) \((j=0,1,2,3)\)

\(H_1:\beta_j\neq0,\) \((j=0,1,2,3)\)

Berdasarkan pada output 4.1., didapatkan bahwa p-value untuk intercept, umur, dan perkiraan pendapatan bernilai kurang dari 0,05 sehingga \(H_0\) berhasil ditolak dan ketiga koefisien beta tersebut memiliki pengaruh terhadap pembelian. Sedangkan, p-value pada jenis kelamin lebih dari 0,05 sehingga \(H_0\) gagal ditolak dan koefisien beta tersebut tidak memiliki pengaruh kepada pembelian.

4.4. Odds Ratio

> cbind(beta,OR_beta)
                         beta      OR_beta
(Intercept)     -1.278363e+01 2.806327e-06
Gender           3.338434e-01 1.396324e+00
Age              2.369694e-01 1.267402e+00
EstimatedSalary  3.644119e-05 1.000036e+00

Berdasarkan pada hasil tersebut, didapatkan kesimpulan sebagai berikut:

  1. Apabila seseorang merupakan laki-laki, maka akan menaikkan keinginan seseorang untuk membeli sebesar 1,3963 kali dari pada seorang perempuan.

  2. Dengan kenaikkan usia sebesar satu tahun, maka akan meningkatkan keinginan seseorang untuk membeli sebesar 1,2674 kali.

  3. Dengan kenaikkan perkiraan pendapatan, maka akan meningkatkan keinginan seseorang untuk membeli sebesar 1,0000 kali.

4.5. Koefisien R-Square

> Rsq
[1] 0.471132

Berdasarkan pada hasil tersebut, dapat disimpulkan bahwa variabel prediktor dapat menjelaskan hanya 47,11% dari keseluruhan model.

4.6. Ketepatan Klasifikasi

> class
   
    FALSE TRUE
  0   237   20
  1    39  104

Berdasarkan pada hasil tersebut, dapat disimpulkan sebagai berikut:

  1. Dari 143 amatan dengan Y=1, terdapat 104 amatan yang dikategorikan dengan benar.

  2. Dari 257 amatan dengan Y=0, hanya terdapat 20 amatan yang dapat dikategorikan dengan benar.

  3. Oleh karena itu, dapat dihitung akurasi modelnya sebesar 31%.

4.7. Uji Kelayakan Model dengan Hosmer dan Lemeshow Test

Hipotesis yang diuji adalah:

\(H_0\) = Model Layak

\(H_1\) = Model tidak layak

> logitgof(Social_Network_Ads$Purchased,fitted(model))

    Hosmer and Lemeshow test (binary model)

data:  Social_Network_Ads$Purchased, fitted(model)
X-squared = 22.844, df = 8, p-value = 0.003571

Berdasarkan pada hasil tersebut, diperoleh p-value (0,003571) yang lebih kecil dari pada 0,05 sehingga \(H_0\) berhasil ditolak pada taraf 5%. Maka dapat disimpulkan bahwa model yang dibentuk bukanlah model yang baik/layak untuk digunakkan.

BAB V : Kesimpulan

Berdasarkan pada analisis data tersebut menggunakan analisis regresi logistik, dapat disimpulkan bahwa model yang dihasilkan bukanlah model terbaik. Hal tersebut dapat dilihat melalui ketepatan klasifikasi yang dihitung berdasarkan akurasi antara prediksi Y dan Y observasi hanyalah sebesar 31%. Hal tersebut dapat dilihat pula melalui hasil uji kelayakan model yang menyatakan bahwa model yang dibentuk tidak layak untuk digunakan. Maka dari itu, dapat digunakan model lain baik model regresi probit maupun regresi gomperzt.

Daftar Pustaka

Nayan, Ayana. 2018. Logistic Regression. Diakses pada 31 Mei 2024, dari https://www.kaggle.com/datasets/dragonheir/logistic-regression/data.

Achmad Efendi, Ni Wayan Surya Wardhani, Rahma Fitriani, Eni Sumarminingsih. 2020. Analisis Regresi : Teori dan Aplikasi dalam R. Malang : Universitas Brawijaya Press.

Eddy Roflin, Freza Riana, Ensiwi Munarsih, Pariyana, Iche Andriyani Liberty. 2023. Regresi Logistik Biner dan Multinomial. Pekalongan : Penerbit NEM.