Penerapan Metode Regresi Logistik Biner Untuk Mengetahui Pengaruh Beberapa Faktor Terhadap Total Pengeluaran Per kapita Keluarga

Zakiya Hulwiyatun Nisa’

2023-06-01


Library:

> #install.packages("knitr")
> #install.packages("rmarkdown")
> #install.packages("tinytex")
> #install.packages("prettydoc")
> #install.packages("equatiomatic")
> #install.packages("readxl")
> #install.packages("pscl")
> #install.packages("generalhoslem")

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Total pengeluaran per kapita keluarga merupakan aspek penting yang dapat menggambarkan tingkat kemiskinan maupun tingkat kesejahteraan dalam suatu keluarga (Harioyo,dkk). Dalam kasus ini ingin mengetahui pengaruh beberapa faktor-faktor terhadap total pengeluaran perkapita keluarga dimana beberapa faktor tersebut, antara lain banyaknya anggota keluarga, kepemilikan BPJS, dan status pembelian beras miskin yang disediakan oleh pemerintah.

Analisis yang digunakan untuk menyelesaikan permasalahan, adalah analisis regresi logistik. Analisis regesi logistik digunakan karena data variabel respon yang ada berupa data kategorik berskala nominal. Dengan menetapkan total pengeluaran per kapita sebagai variabel Y, banyaknya anggota keluarga variabel X1, kepemilikan BPJS sebagai variabel X2, dan pembelian beras miskin sebagai variabel X3. Maka penelitian ini bertujuan untuk mengetahui pengaruh antar jumlah anggota rumah tangga, kepemilikan BPJS, pembelian beras miskin terhadap total pengeluaran rumah tangga.

BAB 2 TINJAUAN PUSTAKA

2.1 Analisis Regresi Logistik Biner

Analisis regresi adalah analisis yang menjelaskan dan memodelkan hubungan antara variabel respon (Y) dan variabel prediktor (X) yang mengandung sebab akibat (Devi, 2020). Analisis regresi untuk memodelkan variabel respon yang bersifat kategori (data berskala nominal atau ordinal) dengan variabel prediktor satu atau lebih yang dapat bersifat kategori maupun kontinu (skala rasio atau interval) disebut regresi logistik (Varamita, 2017).

Regresi logistik memiliki jenis yang bermacam-macam, salah satunya regresi logistik biner. Regresi logistik biner digunakan untuk memodelkan suatu kejadian dengan variabel respon bertipe kategori dua pilihan yaitu sukses atau gagal yang dinotasikan dengan 𝑌 = 1 (sukses) dan 𝑌 = 0 (Gagal). Distribusi yang digunakan regresi logistik biner adalah distribusi bernoulli (Agresti, 1990).

Model regresi logistik diasumsikan bahwa variabel biner harus saling bebas, sehingga variabel biner memiliki sebaran binom. Adapun model regresi logistik dapat ditulis sebagai berikut (Varamita, 2017):

\[ g(X_{ki})=ln[\frac{\pi(x)}{1-\pi(x)}]=\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+...+\beta_{k}X_{ki} \] dimana, \[ \pi(x)=\frac{exp(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+...+\beta_{k}X_{ki})}{1+exp(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+...+\beta_{k}X_{ki})} \]

2.2 Uji Asumsi Regresi Logistik Biner

Karena variabel bebas yang digunakan dalam kasus ini lebih dari dua, maka ada asumsi non multikolinearitas yang perlu dipenuhi. Multikoliniearitas adalah kondisi yang menunjukkan adanya hubungan kuat anatara dua variabel bebas atau lebih dalam sebuah model linear regresi berganda.

Apabila terjadi multikolinearitas dalam sebuah model regresi berganda,maka nilai koefisien beta dari sebuah variabel bebas dapat berubah secara dramatis apabila ada penambahan atau pengurangan variabel bebas di dalam model. Oleh karena itu, jika uji non multikolinearitas tidak terpenuhi maka hubungan antara variabel bebas terhadap variabel terikatnya menjadi terganggu (Amalia, 2020).

2.3 Estimasi Parameter Model Regresi Logistik Biner

Estimasi parameter dalam regresi logistik biner menggunakan metode Maksimum Likelihood Estimation (MLE). Dalam analisis model regresi logistik biner estimati parameter dihitung berdasarkan odds ratio. Dengan rumus odds ratio (OR) sebagai berikut:

\[ OR = exp(\beta_{k}) \]

2.4 Pengujian Parameter Model

Uji signifikan parameter model digunakan untuk mengetahui pengaruh tidaknya variabel prediktor terhadap variabel respon.

2.4.1 Uji Simultan

Uji signifikan parameter secara simultan digunakan untuk mengetahui variabel prediktor signifikan secara serentak terhadap variabel respon atau tidak.

Hipotesis \[ H_{0}:\beta_{j1}=\beta_{j2}=...=\beta_{jk}=0;\beta_{jk}=0 \]

\[ vs \] \[ H_{1}:\beta_{jk} \ne 0 \] Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha

Apabila keputusannya tolak H0, maka model yang mengandung variabel prediktor berpengaruh signifikan secara serentak terhadap variabel respon.

2.4.1 Uji Parsial

Uji signifikan parameter model parsial digunakan untuk mengetahui masing-masing variabel prediktor signifikan terhadap model atau tidak.

Hipotesis \[ H_{0}:\beta_{j}=0, j = 1,2,...,k \]

\[ vs \] \[ H_{1}:\beta_{j} \ne 0, j =1,2,...,k \] Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha

Apabila keputusannya tolak H0, maka variabel prediktor berpengaruh signifikan secara parsial terhadap variabel respon.

2.5 Uji Kesesuaian Model

Uji kesesuaian model bertujuan untuk mengetahui apakah model yang diperoleh telah sesuai dengan data atau tidak. Salah satu uji kesesuaian model yang dapat digunakan yaitu uji Hosmer dan Lemeshow.

Hipotesis yaitu, H0=Model sesuai sedangkan H1=Model tidak sesuai

Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha

Apabila keputusannya tolak H0, maka model yang diperoleh belum sesuai menjelaskan data yang ada.

BAB 3 SOURCE CODE

3.1 Input Data

> #Input Data
> library(readxl)
> datareglog=read_excel("C:/Users/Zakiya Hulwiyatun/Documents/AKADEMIK/M_KOMSTAT/Praktikum/Data PROJEK.xlsx")
> str(datareglog)
tibble [54 × 4] (S3: tbl_df/tbl/data.frame)
 $ PendapatanPerkapita     : num [1:54] 0 0 1 0 0 0 0 0 1 1 ...
 $ BanyaknyaAnggotaKeluarga: num [1:54] 4 3 5 4 4 3 4 4 3 4 ...
 $ KepemilikanBPJS         : num [1:54] 1 1 0 1 0 0 1 0 0 1 ...
 $ PembelianRaskin         : num [1:54] 0 0 0 0 0 0 0 0 0 0 ...
> Y=as.factor(datareglog$PendapatanPerkapita)
> X1=datareglog$BanyaknyaAnggotaKeluarga
> X2=as.factor(datareglog$KepemilikanBPJS)
> X3=as.factor(datareglog$PembelianRaskin)
> 
> #Membentuk data frame
> data_reglog<-data.frame(X1,X2,X3,Y)
> str(data_reglog)
'data.frame':   54 obs. of  4 variables:
 $ X1: num  4 3 5 4 4 3 4 4 3 4 ...
 $ X2: Factor w/ 2 levels "0","1": 2 2 1 2 1 1 2 1 1 2 ...
 $ X3: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ Y : Factor w/ 2 levels "0","1": 1 1 2 1 1 1 1 1 2 2 ...
> library(rmarkdown)
> paged_table(data_reglog)

Data di import dari file excel dengan rincian variabel sebagai berikut:

  • Y = Pendapatan Perkapita Rumah Tangga (0= dibawah rata-rata, 1= diatas rata-rata)
  • X1 = Banyaknya Anggota Keluarga
  • X2 = Kepemilikan BPJS (0=tidak memiliki, 1=memiliki)
  • X3 = Pembelian Beras Miskin (0=membeli, 1=tidak membeli)

3.2 Uji Non Multikolinieritas

> #Uji Non Multikolinieritas
> library(pscl)
> reglog1<- lm(X1~X2+X3, data=data_reglog)
> summary1=data.frame(pR2(reglog1))
fitting null model for pseudo-r2
> r2ml_1=summary1$pR2.reglog1.[5]
> Rsqr_1 <- 1/(1-r2ml_1)
> Rsqr_1
[1] 1.042349
> 
> reglog2<- glm(X2~X1+X3, family=binomial, data=data_reglog)
> summary2=data.frame(pR2(reglog2))
fitting null model for pseudo-r2
> r2ml_2=summary2$pR2.reglog2.[5]
> Rsqr_2 <- 1/(1-r2ml_2)
> Rsqr_2
[1] 1.032769
> 
> reglog3<- glm(X3~X1+X2, family=binomial, data=data_reglog)
> summary3=data.frame(pR2(reglog3))
fitting null model for pseudo-r2
> r2ml_3=summary3$pR2.reglog3.[5]
> Rsqr_3 <- 1/(1-r2ml_3)
> Rsqr_3
[1] 1.017433

3.3 Model Regresi Logistik

> #Model Regresi Logistik
> modelreglog=glm(Y~X1+X2+X3, family=binomial, data=data_reglog)
> #Odds Ratio
> OR=exp(coef(modelreglog))
> OR
(Intercept)          X1         X21         X31 
  0.6775874   1.0459333   0.3519353   3.8592615 

3.4 Pengujian Parameter

> #Uji Simultan
> pR2(modelreglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-33.3176929 -37.0959251   7.5564644   0.1018503   0.1305848   0.1748386 
> qchisq(0.95,2)
[1] 5.991465
> #Uji Parsial
> summary(modelreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_reglog)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6639  -1.0852  -0.6809   1.1508   1.7550  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -0.38922    0.88407  -0.440   0.6598  
X1           0.04491    0.22533   0.199   0.8420  
X21         -1.04431    0.62397  -1.674   0.0942 .
X31          1.35048    0.60790   2.222   0.0263 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 74.192  on 53  degrees of freedom
Residual deviance: 66.635  on 50  degrees of freedom
AIC: 74.635

Number of Fisher Scoring iterations: 4
> #Koefisien Determinasi
> rsqr=1-(66.635/74.192)
> rsqr
[1] 0.1018573

3.5 Pengujian Kesesuaian Model

> #Tabel Klasifikasi
> tab_klas=table(data_reglog$Y,fitted(modelreglog)>0.5)
> tab_klas
   
    FALSE TRUE
  0    21    9
  1     9   15
> #Uji Kesesuaian Model
> library(generalhoslem)
> logitgof(data_reglog$Y, fitted(modelreglog))

    Hosmer and Lemeshow test (binary model)

data:  data_reglog$Y, fitted(modelreglog)
X-squared = 12.728, df = 8, p-value = 0.1216
> qchisq(0.95,2)
[1] 5.991465

BAB 4 HASIL DAN PEMBAHASAN

4.1 Interpretasi Model Regresi

Dari data di atas diperoleh model regresi logistik biner sebagai berikut:

\[ g(X_{ki})=ln[\frac{\pi(x)}{1-\pi(x)}]=-0.38922+0.04491X_{1}+-1.04431X_{2}+1.35048X_{3} \] Interpretasi parameter dilihat melalui hasil perhitungan odds ratio

  • 0.6775874 artinya, ketika seluruh variabel prediktor bernilai 0 maka total pengeluaran perkapita keluarga bernilai 0.6775874.

  • 1.0459333 artinya, ketika variabel banyaknya anggota keluarga bernilai 1 dan variabel prediktor lainnya bernilai konstan maka total pengeluaran perkapita keluarga mengalami peningkatan sebesar 1.0459333 kali.

  • 0.3519353 artinya, ketika variabel status kepemilikan BPJS bernilai 1 dan variabel prediktor lainnya bernilai konstan maka total pengeluaran perkapita keluarga mengalami peningkatan sebesar 0.3519353 kali.

  • 3.8592615 artinya, ketika variabel pembelian beras miskin bernilai 1 dan variabel prediktor lainnya bernilai konstan maka total pengeluaran perkapita keluarga mengalami peningkatan sebesar 3.8592615 kali.

4.2 Interpretasi Pengujian Parameter

4.2.1 Uji Simultan

Berdasarkan hasil uji simultan yang telah dilakukan, diperoleh nilai rasio likelihood sebesar 7.5564644 dan nilai Chi-Square tabel sebesar 5.991465 . Karena 7.5564644 > 5.991465 maka Tolak HO sehingga dapat disimpulkan bahwa ketiga variabel prediktor secara simultan berpengaruh signifikan terhadap variabel total pengeluaran perkapita keluarga

4.2.2 Uji Parsial

  1. Variabel Prediktor X1 diperoleh p-value = 0.8420 Karena p-value > 0.05 maka gagal tolak HO, dan dapat disimpulkan bahawa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel banyaknya anggota keluarga tidak berpengaruh signifikan terhadap variabel total pengeluaran perkapita keluarga.

  2. Variabel Prediktor X2 diperoleh p-value = 0.0942 Karena p-value > 0.05 maka gagal tolak HO, dan dapat disimpulkan bahawa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel kepemilikan BPJS tidak berpengaruh signifikan terhadap variabel total pengeluaran perkapita keluarga.

  3. Variabel Prediktor X3 diperoleh p-value = 0.0263 Karena p-value < 0.05 maka tolak HO, dan dapat disimpulkan bahawa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel pembelian beras miskin berpengaruh signifikan terhadap variabel total pengeluaran perkapita keluarga.

4.3 Interpretasi Koefisien Determinasi

Dari pengujian di atas diperoleh nilai koefisien determinasi sebesar 0.1018573 yang dapat diartikan bahwa ketiga variabel prediktor mampu menjelaskan 10% variabel respon total pengeluaran perkapita keluarga dan 90% lainnya dijelaskan oleh variabel lain di luar pengujian.

4.4 Interpretasi Uji Kelayakan Model

Dilihat dari hasil tabel klasifikasi bahwa ketepatan model dalam analisis regresi logistik biner dalam menggambarkan data adalah sebesar (21+15)/54 = 0.6667 atau sebesar 66.67%. Angka tersebut dapat dibilang sebagai angka yang sedang untuk menjelaskan tingkat ketepatan model.

Untuk mengetahui sudah sesuai atau belum suatu model dapat menggunakan uji Hosmer & Lemeshow. Berdasarkan hasil perhitungan yang ada diperoleh p-value yaitu 0.1216 dimana p-value > (0.05) maka keputusan yang diambil adalah terima H0 sehingga dapat dikatakan bahwa model tersebut sudah cukup untuk menggambarkan data.

BAB 5 KESIMPULAN

Berdasarkan hasil pengujian analisis regresi logistik biner yang telah dilakukan di atas dapat diambil kesimpul bahwa dari ketiga variabel prediktor yaitu variabel banyaknya anggota keluarga, status kepemilikan BPJS, dan pembelian beras miskin hanya terdapat satu variabel yaitu pembelian beras miskin yang memberikan pengaruh secara signifikan terhadap variabel respon total pengeluaran perkapita keluarga.

DAFTAR PUSTAKA

Afifah, D. 2020. Penerapan Metode Regresi Logistik Biner Pada Kesejahteraan Rumah Tangga di Kabupaten Mojokerto. SKripsi. Malang: Universitas Islam Negri Malang.

Agresti, A. 1990. Categorical Data Analysis. New York: John Wiley and Sons.

Amalia, Nanda. 2018. Uji Multikolinearitas pada Analisis Regresi. Artikel Asisten: Fakultas Teknik Universitas Brawijaya.

Syarief, H & Harioyo. Beberapa Aspek dalam Kesejahteraan Keluarga. Bogor: IPB Repository.

Varamita, A. 2017. Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di Rskd Ibu dan Anak Siti Fatimah Makassar. Skripsi Universitas Negeri Makassar.