Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Dalam dunia bisnis yang semakin kompetitif, memahami perilaku konsumen menjadi kunci utama bagi perusahaan untuk mempertahankan dan meningkatkan pangsa pasar mereka. Repurchase penjualan, atau pembelian ulang oleh pelanggan yang sudah ada, adalah indikator penting dari kepuasan pelanggan dan kesetiaan merek. Oleh karena itu, memahami faktor-faktor yang mempengaruhi kecenderungan repurchase penjualan menjadi sangat penting bagi perusahaan dalam mengembangkan strategi pemasaran yang efektif.

Gender seringkali merupakan variabel penting dalam memahami perilaku konsumen. Penelitian sebelumnya menunjukkan bahwa preferensi, kebutuhan, dan kebiasaan belanja dapat bervariasi antara pria dan wanita. Oleh karena itu, penting untuk mengidentifikasi apakah ada perbedaan signifikan dalam kecenderungan repurchase penjualan berdasarkan gender.

Selain gender, usia adalah faktor penting lainnya yang mempengaruhi perilaku konsumen. Kebutuhan, preferensi, dan prioritas pembelian dapat berubah seiring bertambahnya usia seseorang. Maka memahami bagaimana usia memengaruhi kecenderungan repurchase penjualan dapat memberikan wawasan berharga bagi perusahaan untuk menyesuaikan strategi pemasaran mereka sesuai dengan segmen usia yang berbeda.

Selanjutnya, estimasi gaji atau tingkat pendapatan merupakan faktor ekonomi yang signifikan dalam mempengaruhi keputusan pembelian.

Hasil penelitian ini diharapkan dapat memberikan wawasan yang berharga bagi perusahaan dalam mengoptimalkan strategi pemasaran mereka untuk meningkatkan retensi pelanggan dan pertumbuhan bisnis mereka.

1.2 Tinjauan Pustaka

1.2.1 Analisis Regresi Logistik Biner

Regresi menunjukkan hubungan signifikan antara variabel dependen dan independen. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen.

Regresi logistik biner adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara variabel respon (Y) yang bersifat biner dengan variabel prediktor (X) yang bersifat kategorik atau kontinu. Variabel responnya berupa data kualitatif dikotomi yaitu bernilai 1 untuk menyatakan keberadaan sebuah karakteristik dan bernilai 0 untuk menyatakan ketidakberadaan sebuah karakteristik.

1.2.2 Uji Asumsi Multikolinearitas

Pemeriksaan multikolinearitas dilakukan untuk melihat adanya korelasi atau hubungan antara dua variabel bebas.Metode untuk menguji adanya multikoliniearitas dapat dilihat dari nilai tolerance value atau variance inflation factor (VIF).

Asumsi multikolinearitas tidak boleh dilanggar karena dapat memberikan efek yang fatal yaitu model menjadi non identified yang berarti parameter dalam model tidak dapat diestimasi dan keluaran dalam bentuk jalur tidak dapat ditampilkan, atau jika parameter berhasil diestimasi dan keluaran diagram jalur berhasil ditampilkan tetapi hasilnya akan bias. ika asumsi-asumsi ini tidak terpenuhi, metode penyesuaian seperti transformasi data atau teknik pemilihan variabel dapat diterapkan.

1.2.3 Pendugaan Parameter

Penyelesaian untuk mengestimasi parameter yang belum diketahui dapat menggunakan metode Maximum Likelihood Estimation (MLE). Pada dasarnya metode maximum likelihood memberikan nilai estimasi 𝛽 untuk memaksimumkan fungsi likelihood.

1.2.4 Uji Hipotesis Simultan

Uji hipotesis simultan merupakan uji statistik yang dilakukan untuk menguji secara bersama-sama apakah satu set koefisien dalam model regresi secara keseluruhan atau secara serentak memiliki pengaruh yang signifikan terhadap variabel dependen. Dalam konteks regresi, uji hipotesis simultan sering kali digunakan untuk menguji apakah semua koefisien regresi adalah nol secara bersama-sama. Uji serentak ini disebut juga uji model chi square. Hipotesis untuk uji ini adalah sebagai berikut :

𝐻0:𝛽1 = 𝛽2 = ⋯ = 𝛽𝑖 = 0

𝐻1: paling sedikit ada satu parameter 𝛽𝑖 ≠ 0

1.2.5 Odds Ratio

Odds ratio (rasio peluang) adalah ukuran statistik yang digunakan dalam analisis regresi logistik dan studi kasus-kontrol untuk mengukur kekuatan hubungan antara variabel independen dan variabel dependen.

Dalam konteks regresi logistik biner, di mana variabel dependen bersifat biner (biasanya “1” untuk kejadian positif dan “0” untuk kejadian negatif), odds ratio dihitung sebagai berikut:

Odds Ratio = e ^𝛽

1.2.6 Uji Kelayakan Model

Uji Kelayakan Model digunakan untuk mengetahui apakah model yang telah dibuat dapat merepresentasikan data pengamatan. Uji tersebut dapat dilihat pada tabel Hosmer dan Lemeshow Test.

Uji Hosmer-Lemeshow pada regresi logistik adalah sebuah metode yang digunakan untuk menguji kecocokan (goodness-of-fit) antara model regresi logistik yang telah dibangun dengan data yang diamati. Tujuan dari uji ini adalah untuk mengevaluasi seberapa baik model regresi logistik dapat memprediksi hasil observasi dengan membandingkan antara nilai yang diprediksi oleh model dengan nilai yang diamati. Hipotesis yang dapat digunakan adalah sebagai berikut.

\(H_0\) : Model yang digunakan sesuai dengan data

\(H_1\) : Model yang digunakan tidak sesuai dengan data

1.3 Data

Data yang digunakan adalah data sekunder. Data sekunder merupakan sumber data penelitian yang diperoleh peneliti secara tidak langsung melalui media perantara (diperoleh dan dicatat oleh pihak lain) (Indrianto dan Supomo, 2013).

Variabel-variabel yang menjadi objek penelitian adalah repurchased sebagai variabel dependen dan tiga variabel yang mempengaruhinya (variabel Independen). Definisi variabel operasional tersebut adalah sebagai berikut:

Variabel tak bebas adalah repurchased (Y), dengan kategori :
- Ya = 1
- Tidak = 0
Variabel Bebas
1. Gender (X1), dengan kategori :
  - Male = 1
  - Female = 0
2. Usia (X2)
3. Estimated Salary (X3)

Source:<https://www.kaggle.com/datasets/dragonheir/logistic-regression?resource=download>

1.4 Tujuan

Tujuan utama penelitian ini adalah untuk mengidentifikasi variabel yang mempengaruhi repurchase intention menggunakan analisis regresi logistik. Menurut Irwan Gani dan Siti Amalia (2015), regresi logistik adalah salah satu bentuk model regresi nonlinier yang menggunakan fungsi eksponensial dalam pendugaan parameternya. Variabel dependen menggunakan data kategorik dan variabel independen bisa berbentuk numerik dan/atau kategorik.

2 SOURCE CODE, HASIL & PEMBAHASAN

2.1 Library

Terlebih dahulu kita memasang packages untuk melakukan analisis regresi sebagai berikut.

> library(readxl)
> library(car)
> library(pscl)
> library(ResourceSelection)

Library yang digunakan adalah read_excel untuk membaca file excel. car untuk menghitung VIF masing-masing prediktor. pscl memungkinkan pemodelan regresi logistik untuk data biner dan multinomial. ResourceSelection digunakan untuk memfasilitasi interpretasi koefisien dan pengujian signifikansi statistik pada setiap prediktor dalam model.

2.2 Input Data

Selanjutnya, kita dapat memuat data ke dalam Rstudio dengan perintah berikut.

> #menginput data
> data<-read_xlsx("C:/Users/ACER/Downloads/SALSA/Data Set.xlsx")
> head(data)
# A tibble: 6 × 4
  Gender  Usia Salary Purchased
   <dbl> <dbl>  <dbl>     <dbl>
1      1    19     19         0
2      1    35     20         0
3      0    26     43         0
4      0    27     57         0
5      1    19     76         0
6      1    27     58         0
> str(data)
tibble [30 × 4] (S3: tbl_df/tbl/data.frame)
 $ Gender   : num [1:30] 1 1 0 0 1 1 0 0 1 0 ...
 $ Usia     : num [1:30] 19 35 26 27 19 27 27 32 33 35 ...
 $ Salary   : num [1:30] 19 20 43 57 76 58 84 150 33 65 ...
 $ Purchased: num [1:30] 0 0 0 0 0 0 0 1 0 0 ...

2.3 Membentuk Data Frame

> data.frame<-data.frame(
+   Y<-data$Purchased,
+   X1<-data$Gender,
+   X2<-data$Usia,
+   X3<-data$Salary
+ )
> data.frame
   Y....data.Purchased X1....data.Gender X2....data.Usia X3....data.Salary
1                    0                 1              19                19
2                    0                 1              35                20
3                    0                 0              26                43
4                    0                 0              27                57
5                    0                 1              19                76
6                    0                 1              27                58
7                    0                 0              27                84
8                    1                 0              32               150
9                    0                 1              33                33
10                   0                 0              35                65
11                   0                 0              26                80
12                   0                 0              26                52
13                   0                 1              20                86
14                   0                 1              32                18
15                   0                 1              18                82
16                   0                 1              29                80
17                   1                 1              47                25
18                   1                 1              45                26
19                   1                 1              46                28
20                   1                 0              48                29
21                   1                 1              45                22
22                   1                 0              47                49
23                   1                 1              48                41
24                   1                 0              45                22
25                   1                 1              46                23
26                   1                 1              47                20
27                   1                 1              49                28
28                   1                 0              47                30
29                   0                 1              29                43
30                   0                 1              31                18

2.4 Asumsi Multikolinearitas

> reglog_x1<-lm(X1~X2+X3, data=data)
> vif_x1<-1/(1-summary(reglog_x1)$r.squared)
> reglog_x2<-lm(X2~X1+X3, data=data)
> vif_x2<-1/(1-summary(reglog_x2)$r.squared)
> reglog_x3<-lm(X3~X1+X2, data=data)
> vif_x3<-1/(1-summary(reglog_x3)$r.squared)
> nilai_VIF<-data.frame(vif_x1,vif_x2,vif_x3)
> nilai_VIF
    vif_x1  vif_x2  vif_x3
1 1.185117 1.42513 1.60784

VIF atau Variance Inflation Factors dilakukan pada setiap variabel prediktor. Pada perhitungan VIF diatas, nilai VIF pada masing masing variabel prediktor menghasilkan nilai kurang dari 10. Hal tersebut berarti bahwa tidak terjadi multikolinieritas antar variabel prediktor atau tidak saling berkorelasi. Sehingga data-data ini dapat digunakan dan analisis bisa dilanjutkan.

2.5 Analisis Regresi Logistik Biner

> #membuat model reglog
> model_reglog<-glm(Y~X1+X2+X3, family="binomial", data=data)
> summary(model_reglog)

Call:
glm(formula = Y ~ X1 + X2 + X3, family = "binomial", data = data)

Deviance Residuals: 
       Min          1Q      Median          3Q         Max  
-2.312e-05  -2.110e-08  -2.110e-08   2.110e-08   1.951e-05  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.527e+02  4.186e+05  -0.001    0.999
X1           3.258e+01  1.532e+05   0.000    1.000
X2           7.939e+00  9.308e+03   0.001    0.999
X3           8.131e-01  1.167e+03   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 4.1054e+01  on 29  degrees of freedom
Residual deviance: 1.1153e-09  on 26  degrees of freedom
AIC: 8

Number of Fisher Scoring iterations: 25

Dengan menggunakan function glm(), diperoleh model regresi logistik sebagi berikut: \[g(x)= -352.7 + 32.58 X1 + 7.939 X2 + 0.8131 X3\]

Interpretasi masing-masing parameter yaitu:

-352.7 ( \(\beta_0\) ), berarti ketika seluruh variabel prediktor bernilai 0 (konstan) maka keputusan pelanggan untuk melakukan pembelian yang dilakukan lebih dari satu kali (repurchased) sebesar -352.7 atau tidak akan terjadi.
32.58 ( \(\beta_1\) ), berarti ketika pelanggan adalah laki-laki maka terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased) naik sebesar 32.58
7.939 ( \(\beta_2\) ), berarti ketika usia bertambah 1 tahun dan variabel lain bernilai konstan maka terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased) naik sebesar 7.939
0.8131 ( \(\beta_3\) ), berarti ketika jumlah gaji bertambah 1 ribu dan variabel lain bernilai konstan maka terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased) naik sebesar 0.8131

> #pseudo r-square
> Rsq<-1-(0.0000000011153/41.054)
> Rsq
[1] 1

Didapatkan nilai R-square sebesar 1, dari nilai ini dapat diketahui bahwa variabel gender (X1), usia (X2) dan estimated salary (X3) dapat menjelaskan terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased) sebesar 100%. Maka tidak ada variabel lain yang dijelaskan pada model diatas yang mempengaruhi repurchased.

2.6 Uji Hipotesis Simultan

> uji_simultan<-pR2(model_reglog)
fitting null model for pseudo-r2
> uji_simultan
          llh       llhNull            G2      McFadden          r2ML 
-5.576615e-10 -2.052695e+01  4.105391e+01  1.000000e+00  7.455023e-01 
         r2CU 
 1.000000e+00 
> 
> qchisq(0.95, 2)
[1] 5.991465

\(H_0\): variabel prediktor tidak berpengaruh terhadap variabel respon

\(H_1\): variabel prediktor berpengaruh terhadap variabel respon

Keputusan: \(G^2 (41.05391) > X^2 (5.991465)\), maka \(H_0\) ditolak

Kesimpulan: Dengan taraf nyata 5% dapat disimpulkan bahwa gender, usia, dan estimated salary berpengaruh terhadap terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased).

2.7 Odds Ratio

> beta<-(coef(model_reglog))
> beta
 (Intercept)           X1           X2           X3 
-352.7450363   32.5817978    7.9386733    0.8130613 
> 
> OR_beta<- exp(beta)
> OR_beta
  (Intercept)            X1            X2            X3 
6.379362e-154  1.412847e+14  2.803638e+03  2.254800e+00 
> 
> cbind(beta, OR_beta)
                    beta       OR_beta
(Intercept) -352.7450363 6.379362e-154
X1            32.5817978  1.412847e+14
X2             7.9386733  2.803638e+03
X3             0.8130613  2.254800e+00

Gender \((X1)\)

Apabila jenis kelamin seseorang laki-laki 1, maka kecendrungan untuk melakukan pembelian yang dilakukan lebih dari satu kali (repurchased) meningkat sebesar 1.412847e+14 atau 1.412847e+14 kali lipat
Usia \((X2)\)

Apabila usia bertambah 1 tahun, maka kecendrungan untuk melakukan pembelian yang dilakukan lebih dari satu kali (repurchased) meningkat sebesar 2803.6 atau 2803 kali lipat
Estimated Salary \((X3)\)

Apabila nilai estimated salary seseorang bertambah 1 ribu, maka kecendrungan untuk melakukan pembelian yang dilakukan lebih dari satu kali (repurchased) meningkat sebesar 2.254800 atau 2 kali lipat

2.8 Uji Kelayakan Model

> library(ResourceSelection)
> HLT<- hoslem.test(data$Purchased, fitted(model_reglog))
> HLT

    Hosmer and Lemeshow goodness of fit (GOF) test

data:  data$Purchased, fitted(model_reglog)
X-squared = 8.4657e-11, df = 1, p-value = 1

Hipotesis:

\(H_0\) : Model yang digunakan sesuai dengan data

\(H_1\) : Model yang digunakan tidak sesuai dengan data

Keputusan: \(p-value (1 ) > \alpha (0,05)\) , maka \(H_0\) diterima.

Kesimpulan: Dengan taraf nyata 5% dapat disimpulkan bahwa model yang digunakan sesuai dengan data.

3 KESIMPULAN

Berdasarkan hasil pengujian di atas variabel gender, usia, dan estimated salary secara simultan berpengaruh terhadap terjadinya pembelian yang dilakukan lebih dari satu kali (repurchased).

Saat melakukan analisis regresi logistik dalam R, terdapat beberapa langkah krusial yang perlu diperhatikan untuk memastikan validitas dan reliabilitas hasil. Sebaiknya memastikan variabel independen yang dipilih relevan dengan fenomena yang diteliti dan tidak mengalami multicollinearity yang signifikan. Selanjutnya, evaluasi kesesuaian model dengan data sangat penting. Hal ini dapat dilakukan melalui uji goodness-of-fit seperti uji deviance, di mana deviance yang rendah menunjukkan tingkat kesesuaian yang baik antara model dan data yang diamati. Namun, tidak hanya kesesuaian model yang perlu dipertimbangkan. Penting juga untuk memeriksa asumsi-asumsi dasar dari regresi logistik, misalnya asumsi tentang linearitas hubungan antara variabel independen dan log-odds variabel dependen, ketiadaan multicollinearity, heteroskedastisitas, dan autokorelasi dalam residu, serta ketiadaan outlier yang signifikan.

4 SARAN

Berdasarkan analisis lebih lanjut, pengembangan strategi retensi pelanggan yang efektif dapat dilakukan untuk mempertahankan pelanggan yang telah melakukan pembelian ulang. Hal ini dapat mencakup program loyalitas, pelayanan pelanggan yang lebih baik, atau penawaran khusus bagi pelanggan yang sering berbelanja. Sehingga penting untuk terus memantau dan mengevaluasi efektivitas strategi pemasaran dan retensi pelanggan yang diterapkan. Dengan melakukan pemantauan secara berkala, perusahaan dapat mengidentifikasi perubahan tren dan menyesuaikan strategi mereka sesuai kebutuhan untuk mencapai tujuan bisnis yang diinginkan.

5 DAFTAR PUSTAKA

Ghozali, Imam. 2013. Aplikasi Analisis Multivariate dengan Program IBM SPSS 21 Update PLS Regresi. Semarang: Badan Penerbit Universitas Diponegoro.

Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression. John Wiley & Sons.

Irwan Gani & Siti Amalia.(2015). Alat analisis data: Aplikasi statistik untuk penelitian bidang ekonomi dan sosial (Revisi). Andi.

Analisis Regresi Logistik Pengaruh Gender, Usia, dan Estimated Salary Terhadap Repurchase Intention

Salsabila Eka Hariadi

May 24, 2024