1 PENDAHULUAN
1.1 Latar Belakang
Di Era sekarang semuanya pasti tidak terlepas dari yang namanya teknologi. Mulai dari handphone, laptop, komputer dan lain sebagainya. Kegunaanya pun bermacam - macam, ada yang digunakan untuk keperluan sekolah, kantor, berjualan, bahkan transaksi online. Jadi tidak menutup kemungkinan bahwa di zaman sekarang semua orang sudah mempunyai alat komunikasi. Biasanya orang akan membeli barang dengan menyesuaikan pendapatan yang ia punya dan juga tuntutannya, misalkan pelajar, mahasiswa, maupun orang yang sudah bekerja. Pada topik ini akan dijelaskan pemodelan regresi logistik dan probit pada keinginan seorang pelanggan untuk membeli laptop berdasarkan pendapatan dan juga statusnya.
1.2 Tinjauan Pustaka
Model Logistik dapat dinyatakan sebagai berikut :
Model Logistik
Model diatas dapat diinterpretasikan sebagai peluang suatu kejadian tertentu dari variabel respon (Yi = 1, misalnya kejadian membeli atau menunggak) bila nilai dari variabel penjelas diketahui. Hosmer dan Lemeshow 1989 juga menuliskan model regresi logistik dalam bentuk logitnya, yaitu :
Pendugaan parameternya menggunakan metode maksimum likelihood. Metode ini sesuai untuk mengatasi masalah yang timbul saat variabel respon memiliki 2 kemungkinan atau biner, yaitu ketidaknormalan galat dan ketidakhomogenan ragam galat.
Terdapat dua macam pengujian signifikansi, yaitu uji Parsial dan uji Simultan.
Uji Parsial Statistik yang digunakan adalah uji Wald
Uji Simultan Statistik yang digunakan adalah Likelihood Ratio Test
> getwd()
1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM" [
Goodnes of Fit Untuk menguji kebaikan model. Menggunakan deviance residual :
> getwd()
1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM" [
statistik deviance :
> getwd()
1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM" [
Statistik deviance mengikuti sebaran Chi Square dengan derajat bebas
J-(p+1)
Model Probit dapat dinyatakan sebagai berikut :
> getwd()
1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM" [
phi adalah fungsi kumulatif sebaran normal.
Regresi Probit adalah model regresi yang digunakan untuk mengetahui variabel independen terhadap variabel dependen yang bersifat biner. Model ini sering disebut model normit karena menggunakan fungsi kumulatif sebaran normal.
Pendugaan parameter dilakukan dengan metode maximum likelihood.
Terdapat dua macam pengujian signifikansi, yaitu uji Parsial dan uji Simultan.
Uji Parsial Statistik yang digunakan adalah uji Wald
Uji Simultan Statistik yang digunakan adalah Likelihood Ratio Test
> getwd()
1] "F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM" [
1.3 Data
Data yang digunakan adalah data sekunder. Data ini diambil dari buku “Analisis Data Kategorik Menggunakan R Teori dan Aplikasinya pada Berbagai Bidang” yang ditulis oleh Dr. Ani Budi Astuti, Achmad Efendi, Ph.D, Dr. Suci Astutik dan Dr. Eni Sumarminingsih.
2 SOURCE CODE
2.1 Library yang Dibutuhkan
> # Library
> library(rmarkdown)
> library(prettydoc)
> library(tinytex)
> library(readxl)
> library(equatiomatic)
2.2 Mengimport Dataset Excel
> # Data Pelanggan
> Data_Toko_Elektronik <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Data Toko Elektronik.xlsx")
> # Desain Variabel
> Desain_Variabel_Pendapatan <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Desain Variabel Pendapatan.xlsx")
> # Data Pelanggan yang telah disesuaikan
> Data_Pelanggan_Toko_Elektronik <- read_excel("F:/File Kuliah/Semester 4/KOMSTAT/PRAKTIKUM/Data Pelanggan Toko Elektronik.xlsx")
2.3 Menampilkan Dataset
> # Data Pelanggan
> View(Data_Toko_Elektronik)
> # Desain Variabel
> View(Desain_Variabel_Pendapatan)
> # Data Pelanggan yang telah disesuaikam
> View(Data_Pelanggan_Toko_Elektronik)
2.4 Melihat data
> # Data Pelanggan
> Data_Toko_Elektronik
# A tibble: 14 x 3
Y Pendapatan Status <chr> <chr> <chr>
1 Tidak Beli Tinggi Bukan Mahasiswa
2 Tidak Beli Tinggi Bukan Mahasiswa
3 Beli Tinggi Bukan Mahasiswa
4 Beli Sedang Bukan Mahasiswa
5 Beli Rendah Mahasiswa
6 Tidak Beli Rendah Mahasiswa
7 Beli Rendah Mahasiswa
8 Tidak Beli Sedang Bukan Mahasiswa
9 Beli Rendah Mahasiswa
10 Beli Sedang Mahasiswa
11 Beli Sedang Mahasiswa
12 Beli Sedang Bukan Mahasiswa
13 Beli Tinggi Mahasiswa
14 Tidak Beli Sedang Bukan Mahasiswa
>
> # Desain Variabel
> Desain_Variabel_Pendapatan
# A tibble: 3 x 3
Pendapatan D1 D2<chr> <dbl> <dbl>
1 Rendah 0 0
2 Sedang 1 0
3 Tinggi 0 1
>
> # Data Pelanggan yang telah disesuaikam
> Data_Pelanggan_Toko_Elektronik
# A tibble: 14 x 4
Y D1 D2 Status<dbl> <dbl> <dbl> <dbl>
1 0 0 1 0
2 0 0 1 0
3 1 0 1 0
4 1 1 0 0
5 1 0 0 1
6 0 0 0 1
7 1 0 0 1
8 0 1 0 0
9 1 0 0 1
10 1 1 0 1
11 1 1 0 1
12 1 1 0 0
13 1 0 1 1
14 0 1 0 0
Karena variabel pendapatan merupakan variabel politokomus (lebih dari 2 kategori), maka dibentuk variabel baru dengan desain seperti tabel di atas. Karena terdapat 3 kategori pendapatan, maka dibuat 2 variabel baru untuk menyatakan kategori pendapatan tersebut.
2.5 Mendefinisikan Vektor
> Y = Data_Pelanggan_Toko_Elektronik$Y
> D1 = Data_Pelanggan_Toko_Elektronik$D1
> D2 = Data_Pelanggan_Toko_Elektronik$D2
> Status = Data_Pelanggan_Toko_Elektronik$Status
2.6 Membuat Plot
> scatter.smooth(x = Status, y = Y, main = "Hubungan Antara Keinginan Membeli dengan Status", xlab = "Status", ylab = "Keinginan")
2.7 Analisis Regresi Logistik
> Model_Logistik <- glm(Y ~ D1 + D2 + Status, data = Data_Pelanggan_Toko_Elektronik, family = binomial(link = "logit"))
> summary(Model_Logistik)
:
Callglm(formula = Y ~ D1 + D2 + Status, family = binomial(link = "logit"),
data = Data_Pelanggan_Toko_Elektronik)
:
Deviance Residuals
Min 1Q Median 3Q Max -1.66511 -0.90052 0.00014 0.75853 1.48230
:
CoefficientsPr(>|z|)
Estimate Std. Error z value -17.73 3716.43 -0.005 0.996
(Intercept) 17.73 3716.43 0.005 0.996
D1 17.04 3716.43 0.005 0.996
D2 18.83 3716.43 0.005 0.996
Status
for binomial family taken to be 1)
(Dispersion parameter
: 18.249 on 13 degrees of freedom
Null deviance: 13.863 on 10 degrees of freedom
Residual deviance: 21.863
AIC
: 17 Number of Fisher Scoring iterations
2.8 Analisis Regresi Probit
> Model_Probit <- glm(Y ~ D1 + D2 + Status, data = Data_Pelanggan_Toko_Elektronik, family = binomial(link = "probit"))
> summary(Model_Probit)
:
Callglm(formula = Y ~ D1 + D2 + Status, family = binomial(link = "probit"),
data = Data_Pelanggan_Toko_Elektronik)
:
Deviance Residuals
Min 1Q Median 3Q Max -1.6651 -0.9005 0.0001 0.7585 1.4823
:
CoefficientsPr(>|z|)
Estimate Std. Error z value -5.328 885.938 -0.006 0.995
(Intercept) 5.328 885.938 0.006 0.995
D1 4.897 885.938 0.006 0.996
D2 6.002 885.937 0.007 0.995
Status
for binomial family taken to be 1)
(Dispersion parameter
: 18.249 on 13 degrees of freedom
Null deviance: 13.863 on 10 degrees of freedom
Residual deviance: 21.863
AIC
: 17 Number of Fisher Scoring iterations
3 HASIL DAN PEMBAHASAN
3.1 Model Logistik
Jadi Model Logistik yang terbentuk adalah
> extract_eq(Model_Logistik, use_coefs = T)
\[ \log\left[ \frac { \widehat{P( \operatorname{Y} = \operatorname{1} )} }{ 1 - \widehat{P( \operatorname{Y} = \operatorname{1} )} } \right] = -17.73 + 17.73(\operatorname{D1}) + 17.04(\operatorname{D2}) + 18.83(\operatorname{Status}) \]
Hasil pendugaan menggunakan Rstudio sama dengan hasil pendugaan secara manual. Terlihat pada kolom “Estimate” yaitu untuk intersep atau penduga beta0 adalah -17.73, penduga beta1 adalah 17.73, penduga beta2 adalah 17.04, dan penduga beta4 adalah 18.83.
Odd Ratio
Misalkan odd ratio seseorang dengan pendapatan tinggi dan berstatus mahasiswa dengan seseorang dengan pendapatan rendah dan berstatus bukan mahasiswa adalah :
> exp(17.73*(0-0)+17.04*(1-0)+18.83*(1-0))
1] 3.785673e+15 [
Artinya peluang seseorang dengan pendapatan tinggi dan berstatus mahasiswa untuk membeli laptop adalah 3,78 kalinya pendapatan rendah yang bukan berstatus sebagai mahasiswa
Misalkan odd ratio seseorang dengan pendapatan sedang dan berstatus mahasiswa dengan seseorang dengan pendapatan rendah dan berstatus bukan mahasiswa adalah :
> exp(17.73*(0-0)+17.04*(0-1)+18.83*(1-0))
1] 5.989452 [
Artinya peluang seseorang dengan pendapatan sedang dan berstatus mahasiswa untuk membeli laptop adalah 5,98 kalinya pendapatan rendah yang bukan berstatus sebagai mahasiswa
3.2 Model Probit
Jadi Model Probit yang terbentuk adalah
> extract_eq(Model_Probit, use_coefs = T)
\[ \widehat{P( \operatorname{Y} = \operatorname{1} )} = \Phi[-5.33 + 5.33(\operatorname{D1}) + 4.9(\operatorname{D2}) + 6(\operatorname{Status})] \]
- Hasil pendugaan menggunakan Rstudio sama dengan hasil pendugaan secara manual. Terlihat pada kolom “Estimate” yaitu untuk intersep atau penduga beta0 adalah -5.328, penduga beta1 adalah 5.328, penduga beta2 adalah 4.897, dan penduga beta4 adalah 6.002.
Interpretasi :
- Peluang seorang mahasiswa dengan pendapatan rendah untuk membeli laptop adalah
> (-5.33 + 5.33*(0) + 4.9*(0) + 6*(1))
1] 0.67 [
> pnorm(0.67, 0, 1, lower.tail = T)
1] 0.7485711 [
Nilai kumulatif sebaran normal dari 0.67 adalah 0.7498. Maka peluang seorang mahasiswa dengan pendapatan rendah untuk membeli laptop sebesar 0.7498
- Peluang seorang mahasiswa dengan pendapatan tinggi untuk membeli laptop adalah
> (-5.33 + 5.33*(0) + 4.9*(1) + 6*(1))
1] 5.57 [
> pnorm(5.57, 0, 1, lower.tail = T)
1] 1 [
Nilai kumulatif sebaran normal dari 5.57 adalah 1. Maka peluang seorang mahasiswa dengan pendapatan tinggi untuk membeli laptop sebesar 1
- Peluang seseorang yang bukan mahasiswa dengan pendapatan tinggi untuk membeli laptop adalah
> (-5.33 + 5.328*(0) + 4.9*(1) + 6*(0))
1] -0.43 [
> pnorm(-0.43, 0, 1, lower.tail = T)
1] 0.3335978 [
Nilai kumulatif sebaran normal dari -0.43 adalah 0.33. Maka peluang seorang yang bukan mahasiswa dengan pendapatan tinggi untuk membeli laptop sebesar 0.33.
3.3 Kesimpulan
Berdasarkan nilai AIC, kedua model memiliki nilai AIC yang sama, yaitu 21.863. Model yang terbaik adalah model yang memiliki nilai AIC terkecil. Karena kedua model menunjukkan nilai AIC yang sama, maka kedua model baik dan dapat digunakan pada kasus tersebut. Regresi logistik dan probit sama-sama dapat digunakan pada data dengan respon biner. Regresi logistik menggunakan fungsi kumulatif sebaran logistik sedangkan regresi probit menggunakan fungsi kumulatif sebaran normal.
4 DAFTAR PUSTAKA
Astuti, A. B., Efendi, A., Astutik, S., & Sumarminingsih, E. (2020). Analisis Data Kategorik Menggunakan R: Teori dan Aplikasinya pada Berbagai Bidang. Universitas Brawijaya Press.