Pengaruh Jenis Tempat Tinggal, Status Pekerjaan, dan Jumlah Anak Terhadap Kepesertaan Asuransi Kesehatan dengan Regresi Logistik Biner

Nazwa Anindya Putri

1 Juni 2024


Library:

> #install.packages("knitr")
> #install.packages("rmarkdown")
> #install.packages("prettydoc")
> #install.packages("equatiomatic")
> 

1 PENDAHULUAN

1.1 Latar Belakang

Kesehatan merupakan salah satu aspek penting dalam kehidupan manusia yang memerlukan perhatian serius. Akses terhadap layanan kesehatan yang memadai sering kali menjadi indikator kualitas hidup seseorang. Dalam konteks ini, asuransi kesehatan memainkan peran penting sebagai mekanisme perlindungan finansial yang dapat membantu masyarakat dalam menghadapi risiko kesehatan yang tidak terduga. Namun, kepesertaan asuransi kesehatan tidak merata di seluruh populasi dan dipengaruhi oleh berbagai faktor demografis dan sosial ekonomi.

Salah satu faktor yang diduga mempengaruhi kepesertaan asuransi kesehatan adalah jenis tempat tinggal. Perbedaan akses terhadap fasilitas kesehatan dan informasi terkait asuransi antara daerah perkotaan dan pedesaan dapat menyebabkan disparitas dalam kepesertaan asuransi kesehatan. Masyarakat yang tinggal di daerah perkotaan cenderung memiliki akses lebih baik terhadap informasi dan layanan kesehatan dibandingkan mereka yang tinggal di daerah pedesaan.

Status pekerjaan juga merupakan determinan penting dalam kepesertaan asuransi kesehatan. Mereka yang bekerja di sektor formal biasanya mendapatkan asuransi kesehatan sebagai bagian dari manfaat kerja, sementara pekerja di sektor informal sering kali tidak memiliki akses yang sama terhadap asuransi kesehatan. Oleh karena itu, status pekerjaan seseorang dapat secara signifikan mempengaruhi kemungkinan mereka memiliki asuransi kesehatan.

Selain itu, jumlah anak yang hidup dalam suatu keluarga juga dapat mempengaruhi keputusan untuk berpartisipasi dalam program asuransi kesehatan. Keluarga dengan banyak anak mungkin lebih terdorong untuk memiliki asuransi kesehatan sebagai bentuk perlindungan finansial terhadap biaya kesehatan yang bisa muncul sewaktu-waktu.

Analisis yang digunakan untuk menyelesaikan permasalahan, adalah analisis regresi logistik dengan tujuan untuk menganalisis pengaruh jenis tempat tinggal, status pekerjaan, dan jumlah anak terhadap kepesertaan asuransi kesehatan di Indonesia. Metode ini dipilih karena mampu mengukur hubungan antara variabel independen (jenis tempat tinggal, status pekerjaan, dan jumlah anak) dengan variabel dependen (kepesertaan asuransi kesehatan) dalam bentuk probabilitas. Hasil dari penelitian ini diharapkan dapat memberikan wawasan yang lebih dalam mengenai faktor-faktor yang mempengaruhi kepesertaan asuransi kesehatan dan membantu dalam perumusan kebijakan yang lebih efektif untuk meningkatkan akses masyarakat terhadap layanan asuransi kesehatan.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi Logistik Biner

Metode regresi merupakan analisis data yang digunakan untuk mencari hubungan antara variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Regresi logistik merupakan suatu analisis regresi yang digunakan untuk menggambarkan hubungan antara variabel respon yang bersifat dikotomus s (berskala nominal atau ordinal dengan dua kategori) atau polikotomus (berskala nominal atau ordinal dengan lebih dari dua kategori) dengan sekumpulan variabel prediktor bersifat kontinu atau kategorik (Taufiqotul & Vita, 2020).

Regresi logistik memiliki jenis yang bermacam-macam, salah satunya regresi logistik biner. Regresi logistik biner digunakan untuk memodelkan suatu kejadian dengan variabel respon bertipe kategori dua pilihan yaitu sukses atau gagal yang dinotasikan dengan 𝑌 = 1 (sukses) dan 𝑌 = 0 (Gagal). Distribusi yang digunakan regresi logistik biner adalah distribusi bernoulli (Agresti, 1990).

Model regresi logistik diasumsikan bahwa variabel biner harus saling bebas, sehingga variabel biner memiliki sebaran binom. Adapun model regresi logistik dapat ditulis sebagai berikut :

\[ g(X)=ln[\frac{\pi(x)}{1-\pi(x)}]=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{k}X_{k} \] dimana, \[ \pi(x)=\frac{exp(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{k}X_{k})}{1+exp(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{k}X_{k})} \]

2.2 Pengecekan Asumsi Non Multikolinieritas

Asumsi yang harus terpenuhi pada regresi logistik adalah nonmultikolinieritas. Multikolinieritas menunjukkan adanya hubungan di antara peubah prediktor yang terlibat dalam model regresi (Gujarati dan Porter, 2013). Salah satu indikator yang digunakan untuk mendeteksi multikolinieritas, yaitu menggunakan rumus VIF (Variance Inflation Factors) pada persamaan

\[ VIF = \frac{1}{1-R^{2}} \] Apabila nilai VIF lebih besar dari 10 dapat disimpulkan bahwa terdapat multikolinieritas antar peubah-peubah prediktor (Kutner dkk, 2004).

2.3 Pengujian Parameter Model

Uji signifikan parameter model digunakan untuk mengetahui pengaruh tidaknya variabel prediktor terhadap variabel respon.

2.3.1 Uji Simultan

Uji signifikan parameter secara simultan digunakan untuk mengetahui variabel prediktor signifikan secara serentak terhadap variabel respon atau tidak.

Hipotesis \[ H_{0}:\beta_{j1}=\beta_{j2}=...=\beta_{jk}=0;\beta_{jk}=0 \]

\[ vs \] \[ H_{1}:\beta_{jk} \ne 0 \] Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha.

Apabila keputusannya tolak H0, maka model yang mengandung variabel prediktor berpengaruh signifikan secara serentak terhadap variabel respon.

2.3.2 Uji Parsial

Uji signifikan parameter model parsial digunakan untuk mengetahui masing-masing variabel prediktor signifikan terhadap model atau tidak.

Hipotesis \[ H_{0}:\beta_{j}=0, j = 1,2,...,k \] \[ vs \] \[ H_{1}:\beta_{j} \ne 0, j =1,2,...,k \] Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha.

Apabila keputusannya tolak H0, maka variabel prediktor berpengaruh signifikan secara parsial terhadap variabel respon.

2.4 Interpretasi Model

Agar memudahkan dalam menginterpretasikan model digunakan nilai odds ratio. Dengan rumus Odds ratio (OR) sebagai berikut:

\[ OR = exp(\beta_{j}) \] Keputusan tidak terdapat hubungan antara variabel predictor diambil jika nilai odds ratio sama dengan 1. Jika nilai odds ratio kurang dari 1, maka antara variabel prediktor dan variabel respon terdapat hubungan negatif setiap kali perubahan nilai variabel bebas (x). Dan jika odds ratio lebih dari 1 maka antara variabel prediktor dengan variabel respon terdapat hubungan positif setiap kali perubahan nilai variabel bebas (x).

2.5 Uji Kesesuaian MOdel

Uji kesesuaian model dilakukan dengan tujuan untuk mengetahui apakah tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi model. Salah satu uji kesesuaian model yang dapat digunakan yaitu uji Hosmer dan Lemeshow.

Hipotesis \(H_{0}=Model\ sesuai\ (tidak\ terdapat\ perbedaan\ yang\ signifikan\ antara\ hasil\ observasi\ dengan\ kemungkinan\ prediksi\ model)\\ H_{1}=Model\ tidak\ sesuai\ (terdapat\ perbedaan\ yang\ signifikan\ antara\ hasil\ observasi\ dengan\ kemungkinan\ prediksi\ model)\)

Statistik uji: \[ \hat{C} = \sum_{l=1}^g \frac{\left( O_l - n'_l \bar{p}_{l} \right)^2}{n'_l \bar{p}_{l} \left( 1 - \bar{p}_{l} \right)} \] Pengambilan daerah Keputusan, yaitu tolak H0 jika p-value < alpha dan terima H0 jika p-value > alpha

Apabila keputusannya tolak H0, maka model yang diperoleh belum sesuai menjelaskan data yang ada.

3 SOURCE CODE

3.1 Library

> library(readr)
> library(generalhoslem)
> library(pscl)

3.2 Data

> #Import File dari CSV
> Data1=read.csv("C:/kuliah/Laprak2/Data Regresi Logistik Biner.csv")
> Data1
   Y X1 X2 X3
1  0  0  1  4
2  1  1  1  3
3  0  1  1  3
4  0  1  1  0
5  0  1  1  2
6  0  1  1  2
7  1  0  0  3
8  1  0  1  3
9  0  1  1  2
10 1  0  1  2
11 0  1  0  2
12 0  0  1  3
13 0  1  1  4
14 0  0  0  3
15 0  0  1  1
16 1  1  0  3
17 0  1  0  3
18 1  0  0  5
19 0  1  0  4
20 1  1  1  2
21 1  0  1  3
22 1  0  1  4
23 1  1  0  2
24 1  0  0  4
25 0  1  0  1
26 1  0  0  3
27 1  0  0  1
28 0  1  1  3
29 1  1  0  1
30 1  1  0  2
31 1  1  0  3
32 1  0  1  2
33 0  1  1  5
34 1  1  1  2
35 1  0  1  4
36 0  0  0  3
37 0  0  1  4
38 1  0  0  0
39 0  0  0  1
40 1  1  1  0
41 1  0  0  4
42 1  1  0  3
43 0  1  0  0
44 0  1  0  3
45 0  0  0  4
46 0  0  1  4
47 0  0  0  3
48 0  0  0  5
49 0  1  1  1
50 1  1  0  3
51 1  1  0  5
52 0  0  1  5
53 1  1  0  5
54 0  1  0  2

Data di import dari file excel dan input manual dengan rincian variabel sebagai berikut:

  • Y = Ditanggung oleh Asuransi Kesehatan (0=Tidak; 1=Ya)
  • X1 = Jenis Tempat Tinggal (0=Kota; 1=Desa)
  • X2 = Sedang Bekerja (0=Tidak; 1=Ya)
  • X3 = Jumlah Anak yang Masih Hidup

3.3 Uji Non Multikolinieritas

> Reglog_1 <- lm(Y ~ X1 + X2, family=binomial, data = Data1)
> library(car)
> vif(Reglog_1)
      X1       X2 
1.001007 1.001007 
> 
> Reglog_3<- lm(X3~X1+X2, data=Data1)
> summary(Reglog_3)

Call:
lm(formula = X3 ~ X1 + X2, data = Data1)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1654 -0.4906 -0.0709  0.8346  2.6039 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.16536    0.32754   9.664 4.08e-13 ***
X1          -0.67472    0.37403  -1.804   0.0771 .  
X2          -0.09451    0.37403  -0.253   0.8015    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.37 on 51 degrees of freedom
Multiple R-squared:  0.06064,   Adjusted R-squared:  0.02381 
F-statistic: 1.646 on 2 and 51 DF,  p-value: 0.2029
> R2_2<-1/(1-0.06064)
> R2_2
[1] 1.064555

3.4 Model Regresi Logistik

> #Model Regresi Logistik
> modelreglog=glm(Y~X1+X2+X3, family=binomial, data=Data1)
> summary(modelreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = Data1)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  0.46203    0.82089   0.563    0.574
X1          -0.33181    0.57277  -0.579    0.562
X2          -0.62936    0.55627  -1.131    0.258
X3          -0.02501    0.20804  -0.120    0.904

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 74.786  on 53  degrees of freedom
Residual deviance: 73.205  on 50  degrees of freedom
AIC: 81.205

Number of Fisher Scoring iterations: 4

3.5 Pengujian Parameter

> #Uji Simultan
> pR2(modelreglog)
fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-36.60227655 -37.39290224   1.58125139   0.02114374   0.02885786   0.03849476 
> qchisq(0.95,2)
[1] 5.991465
> #Uji Parsial
> summary(modelreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = Data1)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  0.46203    0.82089   0.563    0.574
X1          -0.33181    0.57277  -0.579    0.562
X2          -0.62936    0.55627  -1.131    0.258
X3          -0.02501    0.20804  -0.120    0.904

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 74.786  on 53  degrees of freedom
Residual deviance: 73.205  on 50  degrees of freedom
AIC: 81.205

Number of Fisher Scoring iterations: 4
> #Koefisien Determinasi
> rsqr=1-(73.205/74.786)
> rsqr
[1] 0.02114032

3.6 Odds Ratio

> beta=exp(coef(modelreglog))
> beta
(Intercept)          X1          X2          X3 
  1.5872950   0.7176256   0.5329353   0.9752996 
> OR_beta<-exp(beta)
> OR_beta
(Intercept)          X1          X2          X3 
   4.890502    2.049561    1.703927    2.651962 
> cbind(beta,OR_beta)
                 beta  OR_beta
(Intercept) 1.5872950 4.890502
X1          0.7176256 2.049561
X2          0.5329353 1.703927
X3          0.9752996 2.651962

3.7 Pengujian Kesesuaian Model

> #Tabel Klasifikasi
> tab_klas=table(Data1$Y,fitted(modelreglog)>0.5)
> tab_klas
   
    FALSE TRUE
  0    15   13
  1    10   16
> #Uji Kesesuaian Model
> logitgof(Data1$Y, fitted(modelreglog))

    Hosmer and Lemeshow test (binary model)

data:  Data1$Y, fitted(modelreglog)
X-squared = 4.531, df = 8, p-value = 0.8063
> qchisq(0.95,2)
[1] 5.991465

4 HASIL DAN PEMBAHASAN

4.1 Model Regresi Logistik

Berdasarkan hasil output di atas diperoleh model regresi logistik biner sebagai berikut:

\[ \hat{Y}=0.46203-0.33181X_{1}-0.62936X_{2}-0.02501X_{3} \]

  • 0.46203 artinya, ketika seluruh variabel prediktor bernilai 0 maka kepesertaan asuransi kesehatan akan naik sebesar 0.46203 satuan.

  • 0.33181 artinya, ketika variabel jenis tempat tinggal bernilai 1 dan variabel prediktor lainnya bernilai konstan maka kepesertaan asuransi kesehatan akan turun sebesar 0.33181 satuan.

  • 0.62936 artinya, ketika variabel sedang bekerja bernilai 1 dan variabel prediktor lainnya bernilai konstan maka kepesertaan asuransi kesehatan akan turun sebesar 0.62936 satuan.

  • 0.02501 artinya, ketika variabel jumlah anak bernilai 1 dan variabel prediktor lainnya bernilai konstan maka kepesertaan asuransi kesehatan akan turun sebesar 0.02501 satuan.

4.2 Non Multikolinieritas

Berdasarkan hasil pengujian, diperoleh nilai VIF variabel jenis tempat tinggal, status pekerjaan, dan jumlah anak secara berturut-turut sebesar 1.001007; 1.001007; dan 1.064555. Karena nilai tersebut kurang dari 10, maka dapat disimpulkan bahwa tidak terjadi multikolinieritas dalam model.

4.3 Interpretasi Pengujian Parameter

4.3.1 Uji Simultan

Berdasarkan hasil uji simultan yang telah dilakukan, diperoleh nilai rasio likelihood sebesar 19.09543 dan nilai Chi-Square tabel sebesar 5.991465. Karena 1.58125139 < 5.991465 maka terima HO sehingga dapat disimpulkan bahwa ketiga variabel prediktor secara simultan tidak berpengaruh signifikan terhadap variabel kepesertaan asuransi kesehatan.

4.3.2 Uji Parsial

  1. Variabel Prediktor X1 diperoleh p-value = 0,562 Karena p-value > 0.05 maka tolak HO, dan dapat disimpulkan bahwa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel jenis tempat tinggal berpengaruh signifikan terhadap variabel kepesertaan asuransi kesehatan.

  2. Variabel Prediktor X2 diperoleh p-value = 0,258 Karena p-value > 0.05 maka tolak HO, dan dapat disimpulkan bahwa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel status pekerjaan berpengaruh signifikan terhadap variabel kepesertaan asuransi kesehatan.

  3. Variabel Prediktor X3 diperoleh p-value = 0.904 Karena p-value > 0.05 maka tolak HO, dan dapat disimpulkan bahwa dengan tingkat kepercayaan 95% sudah cukup bukti untuk menyatakan variabel jumlah anak berpengaruh signifikan terhadap variabel kepesertaan asuransi kesehatan.

4.4 Odds Ratio

Berdarakan output odds ratio di atas dapat disimpulkan bahwa:

  • Variabel jenis tempat tinggal (X1) memiliki odds ratio sebesar 2.049561 yang berarti kepesertaan asuransi kesehatan meningkat 2.049561 kali pada setiap peningkatan satu unit X1.

  • Variabel status pekerjaan (X2) memiliki odds ratio sebesar 1.703927 yang berarti kepesertaan asuransi kesehatan meningkat 1.703927 kali pada setiap peningkatan satu unit X2.

  • Variabel jumlah anak (X3) memiliki odds ratio sebesar 2.651962 yang berarti kepesertaan asuransi kesehatan meningkat 2.651962 kali pada setiap peningkatan satu unit X3.

4.5 Interpretasi Koefisien Determinasi

Dari pengujian di atas diperoleh nilai koefisien determinasi sebesar 0.02114032 yang dapat diartikan bahwa ketiga variabel prediktor mampu menjelaskan 2% variabel respon kepesertaan asuransi kesehatan dan 98% lainnya dijelaskan oleh variabel lain di luar pengujian.

4.6 Interpretasi Uji Kelayakan Model

Dilihat dari hasil tabel klasifikasi bahwa ketepatan model dalam analisis regresi logistik biner dalam menggambarkan data adalah sebesar (15+16)/54 = 0.57407407 atau sebesar 57.41%. Angka tersebut dapat dibilang sebagai angka yang sedang untuk menjelaskan tingkat ketepatan model.

Untuk mengetahui sudah sesuai atau belum suatu model dapat menggunakan uji Hosmer & Lemeshow. Berdasarkan hasil perhitungan yang ada diperoleh p-value yaitu 0.8063 dimana p-value > (0.05) maka keputusan yang diambil adalah terima H0 sehingga dapat dikatakan bahwa model tersebut sudah cukup untuk menggambarkan data.

5 KESIMPULAN

Berdasarkan hasil pengujian analisis regresi logistik biner yang telah dilakukan di atas dapat diambil kesimpulan bahwa dari ketiga variabel prediktor yaitu variabel jenis tempat tinggal, status pekerjaan, dan jumlah anak dari ketiga variabel memberikan pengaruh secara signifikan terhadap variabel respon kepesertaan asuransi kesehatan.

6 DAFTAR PUSTAKA

Kamila. (2024). PPT Regresi Probit. Universitas Brawijaya.

Nisva, T. M. T & Ratnasari, V. (2020). Analisis Regresi Logistik Biner pada Faktor-Faktor yang Mempengaruhi Jenis Perceraian di Kabupaten Lumajang. Inferensi, 3(1).

Khairunnisa, S. F., Suharni, Nohe, D. A. (2022). ANALISIS FAKTOR-FAKTOR YANG MEMENGARUHI INDEKS PEMBANGUNAN MANUSIA DI JAWA BARAT MENGGUNAKAN REGRESI LOGISTIK BINER. Prosiding Seminar Nasional Matematika, 2.