Pemodelan Regresi Logistik dan Probit Pada Keinginan Pelanggan Untuk Membeli Laptop Berdasarkan Pendapatan Dan Statusnya Di Toko Elektronik

Ivan Rasyid Ibnu Soetomo

14-05-2022

1 PENDAHULUAN

1.1 Latar Belakang

Di Era sekarang semuanya pasti tidak terlepas dari yang namanya teknologi. Mulai dari handphone, laptop, komputer dan lain sebagainya. Kegunaanya pun bermacam - macam, ada yang digunakan untuk keperluan sekolah, kantor, berjualan, bahkan transaksi online. Jadi tidak menutup kemungkinan bahwa di zaman sekarang semua orang sudah mempunyai alat komunikasi. Biasanya orang akan membeli barang dengan menyesuaikan pendapatan yang ia punya dan juga tuntutannya, misalkan pelajar, mahasiswa, maupun orang yang sudah bekerja. Pada topik ini akan dijelaskan pemodelan regresi logistik dan probit pada keinginan seorang pelanggan untuk membeli laptop berdasarkan pendapatan dan juga statusnya.

1.2 Tinjauan Pustaka

Model Logistik dapat dinyatakan sebagai berikut :

Model Logistik

Model diatas dapat diinterpretasikan sebagai peluang suatu kejadian tertentu dari variabel respon (Yi = 1, misalnya kejadian membeli atau menunggak) bila nilai dari variabel penjelas diketahui. Hosmer dan Lemeshow 1989 juga menuliskan model regresi logistik dalam bentuk logitnya, yaitu :

Pendugaan parameternya menggunakan metode maksimum likelihood. Metode ini sesuai untuk mengatasi masalah yang timbul saat variabel respon memiliki 2 kemungkinan atau biner, yaitu ketidaknormalan galat dan ketidakhomogenan ragam galat.

Terdapat dua macam pengujian signifikansi, yaitu uji Parsial dan uji Simultan.

  • Uji Parsial Statistik yang digunakan adalah uji Wald

  • Uji Simultan Statistik yang digunakan adalah Likelihood Ratio Test

> getwd()
[1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM"

Goodnes of Fit Untuk menguji kebaikan model. Menggunakan deviance residual :

> getwd()
[1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM"

statistik deviance :

> getwd()
[1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM"

Statistik deviance mengikuti sebaran Chi Square dengan derajat bebas J-(p+1)

Model Probit dapat dinyatakan sebagai berikut :

> getwd()
[1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM"

phi adalah fungsi kumulatif sebaran normal.

Regresi Probit adalah model regresi yang digunakan untuk mengetahui variabel independen terhadap variabel dependen yang bersifat biner. Model ini sering disebut model normit karena menggunakan fungsi kumulatif sebaran normal.

Pendugaan parameter dilakukan dengan metode maximum likelihood.

Terdapat dua macam pengujian signifikansi, yaitu uji Parsial dan uji Simultan.

  • Uji Parsial Statistik yang digunakan adalah uji Wald

  • Uji Simultan Statistik yang digunakan adalah Likelihood Ratio Test

> getwd()
[1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM"

1.3 Data

Data yang digunakan adalah data sekunder. Data ini diambil dari buku “Analisis Data Kategorik Menggunakan R Teori dan Aplikasinya pada Berbagai Bidang” yang ditulis oleh Dr. Ani Budi Astuti, Achmad Efendi, Ph.D, Dr. Suci Astutik dan Dr. Eni Sumarminingsih.

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> # Library
> library(rmarkdown)
> library(prettydoc)
> library(tinytex)
> library(readxl)
> library(equatiomatic)

2.2 Mengimport Dataset Excel

> # Data Pelanggan
> Data_Toko_Elektronik <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Data Toko Elektronik.xlsx")
> # Desain Variabel
> Desain_Variabel_Pendapatan <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Desain Variabel Pendapatan.xlsx")
> # Data Pelanggan yang telah disesuaikan
> Data_Pelanggan_Toko_Elektronik <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Data Pelanggan Toko Elektronik.xlsx")

2.3 Menampilkan Dataset

> # Data Pelanggan
> View(Data_Toko_Elektronik)
> # Desain Variabel
> View(Desain_Variabel_Pendapatan)
> # Data Pelanggan yang telah disesuaikam
> View(Data_Pelanggan_Toko_Elektronik)

2.4 Melihat data

> # Data Pelanggan
> Data_Toko_Elektronik
# A tibble: 14 x 3
   Y          Pendapatan Status         
   <chr>      <chr>      <chr>          
 1 Tidak Beli Tinggi     Bukan Mahasiswa
 2 Tidak Beli Tinggi     Bukan Mahasiswa
 3 Beli       Tinggi     Bukan Mahasiswa
 4 Beli       Sedang     Bukan Mahasiswa
 5 Beli       Rendah     Mahasiswa      
 6 Tidak Beli Rendah     Mahasiswa      
 7 Beli       Rendah     Mahasiswa      
 8 Tidak Beli Sedang     Bukan Mahasiswa
 9 Beli       Rendah     Mahasiswa      
10 Beli       Sedang     Mahasiswa      
11 Beli       Sedang     Mahasiswa      
12 Beli       Sedang     Bukan Mahasiswa
13 Beli       Tinggi     Mahasiswa      
14 Tidak Beli Sedang     Bukan Mahasiswa
> 
> # Desain Variabel
> Desain_Variabel_Pendapatan
# A tibble: 3 x 3
  Pendapatan    D1    D2
  <chr>      <dbl> <dbl>
1 Rendah         0     0
2 Sedang         1     0
3 Tinggi         0     1
> 
> # Data Pelanggan yang telah disesuaikam
> Data_Pelanggan_Toko_Elektronik
# A tibble: 14 x 4
       Y    D1    D2 Status
   <dbl> <dbl> <dbl>  <dbl>
 1     0     0     1      0
 2     0     0     1      0
 3     1     0     1      0
 4     1     1     0      0
 5     1     0     0      1
 6     0     0     0      1
 7     1     0     0      1
 8     0     1     0      0
 9     1     0     0      1
10     1     1     0      1
11     1     1     0      1
12     1     1     0      0
13     1     0     1      1
14     0     1     0      0

Karena variabel pendapatan merupakan variabel politokomus (lebih dari 2 kategori), maka dibentuk variabel baru dengan desain seperti tabel di atas. Karena terdapat 3 kategori pendapatan, maka dibuat 2 variabel baru untuk menyatakan kategori pendapatan tersebut.

2.5 Mendefinisikan Vektor

> Y = Data_Pelanggan_Toko_Elektronik$Y
> D1 = Data_Pelanggan_Toko_Elektronik$D1
> D2 = Data_Pelanggan_Toko_Elektronik$D2
> Status = Data_Pelanggan_Toko_Elektronik$Status

2.6 Membuat Plot

> scatter.smooth(x = Status, y = Y, main = "Hubungan Antara Keinginan Membeli dengan Status", xlab = "Status", ylab = "Keinginan")

2.7 Analisis Regresi Logistik

> Model_Logistik <- glm(Y ~ D1 + D2 + Status, data = Data_Pelanggan_Toko_Elektronik, family = binomial(link = "logit"))
> summary(Model_Logistik)

Call:
glm(formula = Y ~ D1 + D2 + Status, family = binomial(link = "logit"), 
    data = Data_Pelanggan_Toko_Elektronik)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.66511  -0.90052   0.00014   0.75853   1.48230  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)   -17.73    3716.43  -0.005    0.996
D1             17.73    3716.43   0.005    0.996
D2             17.04    3716.43   0.005    0.996
Status         18.83    3716.43   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18.249  on 13  degrees of freedom
Residual deviance: 13.863  on 10  degrees of freedom
AIC: 21.863

Number of Fisher Scoring iterations: 17

2.8 Analisis Regresi Probit

> Model_Probit <- glm(Y ~ D1 + D2 + Status, data = Data_Pelanggan_Toko_Elektronik, family = binomial(link = "probit"))
> summary(Model_Probit)

Call:
glm(formula = Y ~ D1 + D2 + Status, family = binomial(link = "probit"), 
    data = Data_Pelanggan_Toko_Elektronik)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -0.9005   0.0001   0.7585   1.4823  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)   -5.328    885.938  -0.006    0.995
D1             5.328    885.938   0.006    0.995
D2             4.897    885.938   0.006    0.996
Status         6.002    885.937   0.007    0.995

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18.249  on 13  degrees of freedom
Residual deviance: 13.863  on 10  degrees of freedom
AIC: 21.863

Number of Fisher Scoring iterations: 17

3 HASIL DAN PEMBAHASAN

3.1 Model Logistik

Jadi Model Logistik yang terbentuk adalah

> extract_eq(Model_Logistik, use_coefs = T)

\[ \log\left[ \frac { \widehat{P( \operatorname{Y} = \operatorname{1} )} }{ 1 - \widehat{P( \operatorname{Y} = \operatorname{1} )} } \right] = -17.73 + 17.73(\operatorname{D1}) + 17.04(\operatorname{D2}) + 18.83(\operatorname{Status}) \]

  • Hasil pendugaan menggunakan Rstudio sama dengan hasil pendugaan secara manual. Terlihat pada kolom “Estimate” yaitu untuk intersep atau penduga beta0 adalah -17.73, penduga beta1 adalah 17.73, penduga beta2 adalah 17.04, dan penduga beta4 adalah 18.83.

  • Odd Ratio

Misalkan odd ratio seseorang dengan pendapatan tinggi dan berstatus mahasiswa dengan seseorang dengan pendapatan rendah dan berstatus bukan mahasiswa adalah :

> exp(17.73*(0-0)+17.04*(1-0)+18.83*(1-0))
[1] 3.785673e+15

Artinya peluang seseorang dengan pendapatan tinggi dan berstatus mahasiswa untuk membeli laptop adalah 3,78 kalinya pendapatan rendah yang bukan berstatus sebagai mahasiswa

Misalkan odd ratio seseorang dengan pendapatan sedang dan berstatus mahasiswa dengan seseorang dengan pendapatan rendah dan berstatus bukan mahasiswa adalah :

> exp(17.73*(0-0)+17.04*(0-1)+18.83*(1-0))
[1] 5.989452

Artinya peluang seseorang dengan pendapatan sedang dan berstatus mahasiswa untuk membeli laptop adalah 5,98 kalinya pendapatan rendah yang bukan berstatus sebagai mahasiswa

3.2 Model Probit

Jadi Model Probit yang terbentuk adalah

> extract_eq(Model_Probit, use_coefs = T)

\[ \widehat{P( \operatorname{Y} = \operatorname{1} )} = \Phi[-5.33 + 5.33(\operatorname{D1}) + 4.9(\operatorname{D2}) + 6(\operatorname{Status})] \]

  • Hasil pendugaan menggunakan Rstudio sama dengan hasil pendugaan secara manual. Terlihat pada kolom “Estimate” yaitu untuk intersep atau penduga beta0 adalah -5.328, penduga beta1 adalah 5.328, penduga beta2 adalah 4.897, dan penduga beta4 adalah 6.002.

Interpretasi :

  • Peluang seorang mahasiswa dengan pendapatan rendah untuk membeli laptop adalah
> (-5.33 + 5.33*(0) + 4.9*(0) + 6*(1))
[1] 0.67
> pnorm(0.67, 0, 1, lower.tail = T)
[1] 0.7485711

Nilai kumulatif sebaran normal dari 0.67 adalah 0.7498. Maka peluang seorang mahasiswa dengan pendapatan rendah untuk membeli laptop sebesar 0.7498

  • Peluang seorang mahasiswa dengan pendapatan tinggi untuk membeli laptop adalah
> (-5.33 + 5.33*(0) + 4.9*(1) + 6*(1))
[1] 5.57
> pnorm(5.57, 0, 1, lower.tail = T)
[1] 1

Nilai kumulatif sebaran normal dari 5.57 adalah 1. Maka peluang seorang mahasiswa dengan pendapatan tinggi untuk membeli laptop sebesar 1

  • Peluang seseorang yang bukan mahasiswa dengan pendapatan tinggi untuk membeli laptop adalah
> (-5.33 + 5.328*(0) + 4.9*(1) + 6*(0))
[1] -0.43
> pnorm(-0.43, 0, 1, lower.tail = T)
[1] 0.3335978

Nilai kumulatif sebaran normal dari -0.43 adalah 0.33. Maka peluang seorang yang bukan mahasiswa dengan pendapatan tinggi untuk membeli laptop sebesar 0.33.

3.3 Kesimpulan

Berdasarkan nilai AIC, kedua model memiliki nilai AIC yang sama, yaitu 21.863. Model yang terbaik adalah model yang memiliki nilai AIC terkecil. Karena kedua model menunjukkan nilai AIC yang sama, maka kedua model baik dan dapat digunakan pada kasus tersebut. Regresi logistik dan probit sama-sama dapat digunakan pada data dengan respon biner. Regresi logistik menggunakan fungsi kumulatif sebaran logistik sedangkan regresi probit menggunakan fungsi kumulatif sebaran normal.

4 DAFTAR PUSTAKA

Astuti, A. B., Efendi, A., Astutik, S., & Sumarminingsih, E. (2020). Analisis Data Kategorik Menggunakan R: Teori dan Aplikasinya pada Berbagai Bidang. Universitas Brawijaya Press.