Program Jaminan Kesehatan Nasional (JKN) melalui BPJS Kesehatan merupakan sistem perlindungan yang bertujuan memberikan akses layanan kesehatan yang merata bagi seluruh masyarakat Indonesia. Namun, capaian kepesertaan BPJS di berbagai daerah masih belum merata, sehingga diperlukan pemahaman mengenai faktor-faktor yang memengaruhi keikutsertaan penduduk. Berbagai penelitian menunjukkan bahwa kondisi sosial ekonomi memiliki peran penting terhadap partisipasi masyarakat dalam program asuransi kesehatan.
Tingkat pendidikan, misalnya, kerap dikaitkan dengan pola pengambilan keputusan rumah tangga. Penduduk dengan rata-rata lama sekolah yang lebih tinggi cenderung memiliki literasi kesehatan yang lebih baik, sehingga lebih menyadari pentingnya jaminan kesehatan. Di sisi lain, pengeluaran kesehatan mencerminkan kebutuhan dan akses terhadap layanan kesehatan. Daerah dengan beban biaya kesehatan yang lebih tinggi sering menunjukkan motivasi lebih besar untuk memiliki perlindungan finansial melalui asuransi kesehatan.
Faktor demografi juga memainkan peranan. Proporsi penduduk perkotaan biasanya memiliki akses yang lebih baik terhadap fasilitas kesehatan, informasi, dan layanan administrasi dibandingkan wilayah pedesaan. Pola ini dapat memengaruhi tingkat kepesertaan BPJS. Selain itu, tingkat kemiskinan menjasi variabel penting karena rumah tangga miskin berisiko tidak mampu menanggung biaya kesehatan sendiri dan sangat bergantung pada program bantuan iuran (PBI). Tingginya angka kemiskinan di suatu daerah dapat mengindikasikan kerentanan kesehatan dan keterbatasan akses terhadap jaminan kesehatan.
Dengan kompleksitas hubungan antarvariabel tersebut, diperlukan pendekatan statistik yang mampu mengelompokkan atau memprediksi kategori keikutsertaan BPJS berdasarkan variabel sosial ekonomi. Analisis diskriminan merupakan salah satu metode yang efektif untuk mengklasifikasikan objek ke dalam kelompok tertentu berdasarkan karakteristik prediktornya. Oleh karena itu, penelitian ini menggunakan analisis diskriminan untuk mengetahui faktor-faktor yang berperan dalam membedakan pendudukan yang memiliki BPJS dan yang tidak.
1.2.1. Analisis Diskriminan Analisis diskriminan merupakan suatu
teknik statistik multivariat yang digunakan untuk mengelompokkan objek
ke dalam beberapa kelompok berdasarkan variabel‐variabel prediktor yang
bersifat kuantitatif. Metode ini membangun suatu fungsi diskriminan yang
berupa kombinasi linier dari variabel independen untuk memaksimalkan
perbedaan antar kelompok. Fungsi diskriminan umumnya berbentuk: \[
D_k = a_0 + a_1 X_1 + a_2 X_2 + \cdots + a_p X_p
\] Dimana:
\(D_k\) = nilai fungsi diskriminan
untuk kelompok ke-\(k\),
\(a_1\) = koefisien diskriminan,
dan
\(X_1\) = variabel prediktor.
Metode ini banyak digunakan dalam bidang sosial, ekonomi, kesehatan, hingga pemasaran karena kemampuannya membedakan berdasarkan sifat karakteristik.
1.2.2. Asumsi-asumsi dalam Analisis Diskriminan Agar hasil analisis diskriminasi valid, terdapat beberapa asumsi yang perlu dipenuhi:
Multivariat Normalitas: Variabel prediktor diasumsikan mengikuti distribusi normal multivariat pada masing-masing kelompok. Normalitas multivariat memastikan bahwa fungsi diskriminan memiliki performa klasifikasi optimal.
Kesamaan Matriks Kovarians (Homogenitas): Analisis diskriminan linier (LDA) mengasumsikan bahwa matriks kovarians antar kelompok adalah sama (homogeneous covariance matrices). Pengujian asumsi ini biasanya menggunakan uji Box’s M. Jika matriks kovarians tidak sama, maka analisis diskriminan kuadratik (QDA) lebih sesuai digunakan.
Non-Multikolinearitas: Variabel independen tidak boleh saling berkorelasi sangat tinggi. Multikolinearitas dapat menyebabkan ketidakstabilan dalam estimasi koefisien fungsi diskriminan dan menurunkan kemampuan model membedakan kelompok.
Tidak Terdapat Outlier Ekstrim: Outlier yang ekstrem dapat memengaruhi nilai mean, matriks kovarians, dan fungsi diskriminan, yang pada akhirnya menurunkan akurasi klasifikasi.
Hubungan Linier antara Variabel Prediktor: LDA mengasumsikan bahwa kombinasi linier variabel prediktor adalah bentuk yang tepat untuk memisahkan kelompok. Jika hubungan antar variabel bersifat non‐linier, maka hasil analisis dapat kurang optimal.
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) melalui berbagai tabel statistik resmi yang tersedia pada laman publik BPS. Data tersebut mencakup informasi sosial ekonomi dan demografi setiap provinsi di Indonesia, dan digunakan untuk menganalisis faktor-faktor yang membedakan penduduk yang memiliki BPJS dan yang tidak.
Dataset yang digunakan terdiri dari variabel:
Y – Status kepemilikan BPJS (0 = tidak memiliki BPJS, 1 = memiliki BPJS).
Data diperoleh dari publikasi Persentase Penduduk yang Memiliki Jaminan Kesehatan Menurut Provinsi (BPS, 2021).
X1 – Rata-rata lama sekolah penduduk usia 15 tahun ke atas.
Data berasal dari tabel Rata-rata Lama Sekolah Penduduk Menurut Provinsi (BPS).
X2 – Rata-rata pengeluaran biaya kesehatan per provinsi.
Bersumber dari publikasi Pengeluaran Konsumsi Penduduk Indonesia per Provinsi – Susenas 2021.
X3 – Persentase penduduk yang tinggal di daerah perkotaan.
Diambil dari tabel Persentase Penduduk Daerah Perkotaan Menurut Provinsi.
X4 – Persentase penduduk miskin per provinsi.
Diambil dari tabel Jumlah dan Persentase Penduduk Miskin Menurut Provinsi (BPS, 2021).
Tujuan yang ingin dicapai dalam penelitian ini adalah:
Menganalisis pengaruh rata-rata lama sekolah dalam membedakan penduduk yang memiliki BPJS dan yang tidak.
Mengevaluasi peran rata-rata pengeluaran biaya kesehatan dalam klasifikasi kepesertaan BPJS.
Mengetahui pengaruh persentase penduduk daerah perkotaan terhadap perbedaan keikutsertaan BPJS.
Menganalisis pengaruh persentase penduduk miskin dalam membedakan penduduk berdasarkan status kepemilikan BPJS.
Menilai akurasi model analisis diskriminan dalam mengklasifikasikan penduduk ke dalam dua kelompok kepesertaan BPJS.
> library(MVN)
> library(biotools)
> library(MASS)
> library(readxl)
> library(candisc)
> library(caret)
> library(equatiomatic)
> library(prettydoc)
> library(rmarkdown)
> library(knitr)
> datadiskriminan <- read_excel("D:/cumloude bismillah/smt 5/anmul 1/data laprak anmul.xlsx")
> head(datadiskriminan)
# A tibble: 6 × 6
Provinsi Y X1 X2 X3 X4
<chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Aceh 1 9.77 486939 33.2 15.3
2 Sumatera Utara 0 9.88 805091 56.3 9.01
3 Sumatera Barat 0 9.46 664236 49.6 6.63
4 Riau 0 9.52 865897 40.1 7.12
5 Jambi 0 9.03 693665 33.3 8.09
6 Sumatera Selatan 0 8.78 817238 37.3 12.8
2.3.1. STANDARISASI X2 (Z-SCORE)
> datadiskriminan$X2 <- as.numeric(scale(datadiskriminan$X2))
2.3.2. CEK OUTLIER MULTIVARIAT
> datacek <- datadiskriminan
> hasil_out <- mvn(datacek[, c("X1","X2","X3","X4")])
> databaru <- hasil_out$multivariateNormality$Descriptives #Data Tanpa Outlier
2.3.3. UJI NORMALITAS MULTIVARIAT
> hasil_normalitas <- mvn(datadiskriminan[, c("X1","X2","X3","X4")],
+ alpha = 0.05)
2.3.4. UJI HOMOGENITAS (Bartlett)
> uji_bart <- function(x){
+ method <- "Bartlett's test of sphericity"
+ data.name <- deparse(substitute(x))
+ x <- subset(x, complete.cases(x))
+ n <- nrow(x)
+ p <- ncol(x)
+ chisq <- (1-n+(2*p+5)/6)*log(det(cor(x)))
+ df <- p*(p-1)/2
+ p.value <- pchisq(chisq, df, lower.tail = FALSE)
+ names(chisq) <- "Khi-squared"
+ names(df) <- "df"
+ return(structure(list(statistic=chisq, parameter=df,
+ p.value=p.value, method=method,
+ data.name=data.name), class="htest"))
+ }
2.3.5. UJI PERBEDAAN MEAN (MANOVA)
> X <- as.matrix(datadiskriminan[, c("X1","X2","X3","X4")])
>
> manova_model <- manova(X ~ datadiskriminan$Y)
2.3.6. KONTRIBUSI VARIABEL (CANDISC)
> cc <- candisc(manova_model)
2.3.7. ANALISIS DISKRIMINAN (LDA)
> model_lda <- lda(Y ~ X1 + X2 + X3 + X4, data = datadiskriminan)
2.3.8. TABEL KLASIFIKASI
> pred_lda <- predict(model_lda, datadiskriminan)
> table(actual = datadiskriminan$Y, predicted = pred_lda$class)
predicted
actual 0 1
0 28 0
1 6 0
Dikarenakan variabel X2 memiliki skala data yang berbeda dengan variabel lain, maka kita lakukan standarisasi terlebih dahulu menggunakan normalisasi z-score.
> datadiskriminan$X2
[1] -0.72836399 0.25973092 -0.17772699 0.44857807 -0.08632839 0.29745625
[7] -0.39630221 -0.12788309 -0.06645792 2.98880612 2.06325135 0.60398270
[13] 0.08028793 2.28298500 0.41586850 0.43824530 0.12444833 -0.38513089
[19] -1.39210244 -0.18020225 0.18593562 0.74698614 0.89103000 0.69727579
[25] -0.99433579 -0.78459016 -0.95171272 -0.77045597 -0.79818395 -1.43961703
[31] -0.57995347 -1.27666858 -0.75088365 -0.63796855
> hasil_out
$multivariate_normality
Test Statistic p.value Method MVN
1 Henze-Zirkler 0.928 0.046 asymptotic ✗ Not normal
$univariate_normality
Test Variable Statistic p.value Normality
1 Anderson-Darling X1 0.195 0.884 ✓ Normal
2 Anderson-Darling X2 0.835 0.028 ✗ Not normal
3 Anderson-Darling X3 0.887 0.021 ✗ Not normal
4 Anderson-Darling X4 1.050 0.008 ✗ Not normal
$descriptives
Variable n Mean Std.Dev Median Min Max 25th 75th Skew Kurtosis
1 X1 34 9.160 0.833 9.220 7.05 11.200 8.545 9.707 -0.051 3.205
2 X2 34 0.000 1.000 -0.107 -1.44 2.989 -0.745 0.433 1.135 4.405
3 X3 34 48.659 18.750 44.500 23.00 100.000 33.700 56.225 0.842 3.024
4 X4 34 10.762 5.403 8.895 4.53 26.860 6.718 12.960 1.113 3.877
$data
# A tibble: 34 × 4
X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl>
1 9.77 -0.728 33.2 15.3
2 9.88 0.260 56.3 9.01
3 9.46 -0.178 49.6 6.63
4 9.52 0.449 40.1 7.12
5 9.03 -0.0863 33.3 8.09
6 8.78 0.297 37.3 12.8
7 9.26 -0.396 32.6 15.2
8 8.56 -0.128 31.3 12.6
9 8.54 -0.0665 56 4.9
10 10.4 2.99 83.3 6.12
# ℹ 24 more rows
$subset
NULL
$outlierMethod
[1] "none"
attr(,"class")
[1] "mvn"
Hasil uji normalitas multivariat menggunakan metode Henze–Zirkler menunjukkan p-value < 0.001 sehingga dengan taraf signifikansi 5% dapat disimpulkan bahwa data tidak berdistribusi normal secara multivariat. Selain itu, berdasarkan uji Anderson–Darling, hanya variabel X1 yang berdistribusi normal secara univariat (p-value > 0.05), sedangkan variabel Y, X2, X3, dan X4 memiliki p-value < 0.05 sehingga tidak memenuhi asumsi normalitas univariat.
> uji_bart(datadiskriminan[, c("X1","X2","X3","X4")])
Bartlett's test of sphericity
data: datadiskriminan[, c("X1", "X2", "X3", "X4")]
Khi-squared = 51.959, df = 6, p-value = 1.901e-09
Dengan menggunakan taraf signifikansi 5%, karena p-value < 0.05, maka keputusan yang diambil adalah menolak H0, artinya terdapat korelasi yang signifikan antar variabel. Dengan demikian, hasil uji Bartlett menunjukkan bahwa variabel-variabel dalam dataset memiliki keterkaitan yang signifikan dan layak untuk dilakukan analisis faktor, karena adanya hubungan antar variabel yang cukup kuat untuk diekstraksi menjadi faktor laten.
> summary(manova_model, test = "Wilks")
Df Wilks approx F num Df den Df Pr(>F)
datadiskriminan$Y 1 0.93768 0.48186 4 29 0.7488
Residuals 32
Dengan taraf signifikansi 5%, hasil uji Wilks’ Lambda menunjukkan bahwa variabel Y tidak memberikan pengaruh yang signifikan terhadap kombinasi variabel X1, X2, X3, dan X4 secara multivariat. Dengan kata lain, tidak terdapat perbedaan mean multivariat yang signifikan antar kelompok berdasarkan variabel Y.
> cc
Canonical Discriminant Analysis for datadiskriminan$Y:
CanRsq Eigenvalue Difference Percent Cumulative
1 0.062322 0.066464 100 100
Test of H0: The canonical correlations in the
current row and all that follow are zero
LR test stat approx F numDF denDF Pr(> F)
1 0.93768 0.48186 4 29 0.7488
Hasil Canonical Discriminant Analysis menunjukkan bahwa nilai Canonical R² sebesar 0.062322 dan eigenvalue 0.066464 yang sama-sama kecil menandakan kemampuan pemisahan antar kelompok yang lemah. Dengan taraf signifikansi 5%, hubungan kanonik yang terbentuk tidak signifikan sehingga fungsi diskriminan yang dihasilkan tidak mampu membedakan kelompok secara statistik. Dengan demikian, variabel-variabel prediktor dalam analisis ini tidak memiliki kemampuan yang cukup untuk mengklasifikasikan kelompok secara efektif.
> model_lda
Call:
lda(Y ~ X1 + X2 + X3 + X4, data = datadiskriminan)
Prior probabilities of groups:
0 1
0.8235294 0.1764706
Group means:
X1 X2 X3 X4
0 9.098929 -0.01529852 47.66429 10.62107
1 9.445000 0.07139311 53.30000 11.42167
Coefficients of linear discriminants:
LD1
X1 0.8279596
X2 -0.7490419
X3 0.0582854
X4 0.1323974
Prior probabilitas menunjukkan proporsi awal untuk masing-masing kelompok, yaitu 0.8235 untuk kelompok 0 dan 0.1765 untuk kelompok 1.
Group means menunjukkan rata-rata setiap variabel prediktor (X1, X2, X3, dan X4) dalam masing-masing kelompok. Ini menunjukkan perbedaan rata-rata antar kelompok pada masing-masing variabel.
Koefisien pada kolom LD1 menunjukkan kontribusi masing-masing variabel prediktor terhadap fungsi diskriminan. Dalam hal ini, variabel X1 memiliki kontribusi terbesar yaitu 0.8279 sedangkan X2 memiliki kontribusi negatif terbesar, yaitu -0.749.
Maka, dibentuk model: \[ LD_1 = 0.8278X_1 - 0.749X_2 + 0.0582X_3 + 0.1324X_4 \]
> pred_lda
$class
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Levels: 0 1
$posterior
0 1
1 0.7658084 0.23419161
2 0.7818115 0.21818850
3 0.8522500 0.14774996
4 0.9127960 0.08720397
5 0.9260361 0.07396385
6 0.9077264 0.09227364
7 0.8399033 0.16009673
8 0.9202107 0.07978933
9 0.9013508 0.09864916
10 0.8269780 0.17302202
11 0.5367082 0.46329179
12 0.7509287 0.24907125
13 0.8826512 0.11734878
14 0.7603558 0.23964423
15 0.8835826 0.11641741
16 0.7971442 0.20285585
17 0.7859973 0.21400274
18 0.8491827 0.15081734
19 0.8263723 0.17362772
20 0.9530892 0.04691084
21 0.9341212 0.06587883
22 0.9426830 0.05731696
23 0.7694399 0.23056009
24 0.8043202 0.19567977
25 0.7018295 0.29817050
26 0.8561023 0.14389768
27 0.8372874 0.16271259
28 0.8248938 0.17510617
29 0.8176962 0.18230378
30 0.9109955 0.08900448
31 0.6360804 0.36391965
32 0.8775487 0.12245131
33 0.5991706 0.40082935
34 0.8559043 0.14409568
$x
LD1
1 0.75435147
2 0.61494355
3 -0.11074321
4 -1.01903092
5 -1.29197897
6 -0.92441028
7 0.03382895
8 -1.16680422
9 -0.81183219
10 0.17580890
11 2.33602483
12 0.87814944
13 -0.51530278
14 0.80032406
15 -0.52905577
16 0.47428015
17 0.57727986
18 -0.07392764
19 0.18225223
20 -2.02988778
21 -1.48167132
22 -1.70778081
23 0.72332000
24 0.40572381
25 1.25546463
26 -0.15788548
27 0.06328678
28 0.19790542
29 0.27266178
30 -0.98487106
31 1.70912260
32 -0.44159054
33 1.94748154
34 -0.15543701
Dari hasil diperoleh, model berhasil mengklasifikasikan 28 dari 28 data aktual dengan label 0, dan 6 dari 6 data aktual dengan label 1 dengan benar.
\[ \text{akurasi} = \frac{28 + 0}{34} = 0.82\% \] Model diskriminan ini memiliki tingkat akurasi yang kecil, yaitu 0.82% dan menunjukkan bahwa tidak ada perbedaan signifikan antar kelompok berdasarkan variabel prediktor dengan variabel X1 sebagai kontributor terbesar pada model.
Berdasarkan hasil analisis diskriminan yang dilakukan untuk melihat apakah variabel rata-rata lama sekolah, rata-rata pengeluaran kesehatan, persentase penduduk daerah perkotaan, dan persentase penduduk miskin mampu membedakan kelompok penduduk yang memiliki jaminan kesehatan (BPJS) dan yang tidak, dapat disimpulkan bahwa data penelitian tidak memenuhi asumsi normalitas multivariat. Hasil uji Henze–Zirkler dan Anderson–Darling menunjukkan bahwa sebagian besar variabel tidak berdistribusi normal. Meskipun demikian, uji Bartlett mengindikasikan adanya korelasi yang signifikan antar variabel prediktor, sehingga hubungan antar variabel cukup kuat untuk dianalisis lebih lanjut, walaupun asumsi normalitas tidak dipenuhi sepenuhnya.
Selanjutnya, uji Wilks’ Lambda pada MANOVA menunjukkan bahwa tidak terdapat perbedaan mean multivariat yang signifikan antara kelompok penduduk yang memiliki BPJS dan yang tidak. Hal ini didukung oleh hasil Canonical Discriminant Analysis yang menghasilkan nilai Canonical R² hanya sebesar 0.0623 dan eigenvalue sebesar 0.066464. Nilai tersebut menunjukkan bahwa kemampuan variabel prediktor dalam menjelaskan variasi keanggotaan kelompok sangat rendah. Selain itu, fungsi diskriminan yang dihasilkan tidak signifikan dan tidak mampu memisahkan kedua kelompok secara statistik, meskipun variabel X1 (rata-rata lama sekolah) memberikan kontribusi terbesar dalam pembentukan fungsi diskriminan.
Terakhir, hasil klasifikasi menunjukkan bahwa model hanya memiliki tingkat akurasi sebesar 0.82%, yang berarti kemampuan model dalam memprediksi status kepemilikan BPJS berdasarkan empat variabel prediktor sangat rendah. Dengan demikian, dapat disimpulkan bahwa analisis diskriminan tidak tepat digunakan untuk memodelkan hubungan antara variabel-variabel prediktor dengan status kepemilikan BPJS dalam dataset ini. Faktor-faktor pendidikan, pengeluaran kesehatan, urbanisasi, dan kemiskinan tidak memberikan perbedaan yang cukup kuat untuk membedakan kelompok penduduk yang memiliki dan tidak memiliki jaminan kesehatan. Studi lanjutan dengan variabel yang lebih relevan atau metode analisis lain mungkin diperlukan untuk mendapatkan hasil yang lebih signifikan.
Badan Pusat Statistik. (2022). Pengeluaran untuk konsumsi penduduk Indonesia per provinsi: Berdasarkan hasil Susenas September 2021. BPS-Statistics Indonesia.
Badan Pusat Statistik. (2021). Statistik Indonesia 2021. Jakarta: Badan Pusat Statistik.
Badan Pusat Statistik. (2022). Profil Kemiskinan di Indonesia 2022. Jakarta: Badan Pusat Statistik.
Badan Pusat Statistik. (2021). Statistik Kesehatan 2021. Jakarta: Badan Pusat Statistik.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.
Kementerian Kesehatan RI. (2020). Laporan Nasional Riset Kesehatan Dasar. Jakarta: Badan Penelitian dan Pengembangan Kesehatan.
Kementerian Pendidikan dan Kebudayaan RI. (2020). Statistik Pendidikan 2020. Jakarta: Pusat Data dan Statistik Pendidikan.
Tabachnick, B. G., & Fidell, L. S. (2019). Using Multivariate Statistics (7th ed.). Pearson.
Johnson, R. A., & Wichern, D. W. (2014). Applied Multivariate Statistical Analysis (6th ed.). Pearson.