PENERAPAN ANALISIS REGRESI LINIER BERGANDA UNTUK MENGETAHUI PENGARUH HASIL TES DIAGNOSTIK TERHADAP DIABETES
Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")PENDAHULUAN
Latar Belakang
Diabetes adalah suatu penyakit metabolik yang diakibatkan oleh meningkatnya kadar glukosa atau gula darah. Penyakit ini menjadi salah satu masalah kesehatan utama di dunia, termasuk di Indonesia, mengingat prevalensinya yang terus meningkat setiap tahunnya. Berdasarkan data dari International Diabetes Federation (IDF), jumlah penderita diabetes di Indonesia diperkirakan akan terus meningkat jika tidak ada upaya yang signifikan dalam pencegahan dan pengendalian penyakit ini.
Pentingnya diagnosis dini dan penanganan yang tepat terhadap diabetes mendorong perlunya pengembangan alat dan metode yang dapat membantu dalam memprediksi risiko diabetes pada individu. Salah satu cara yang efektif adalah melalui analisis regresi linier berganda, yang memungkinkan kita untuk memahami hubungan antara berbagai variabel hasil tes diagnostik dan risiko terjadinya diabetes. Tes diagnostik seperti kadar gula darah (glukose), tekanan dara (blood pressure), indeks massa tubuh (BMI), insulin dan umur (age) sering digunakan sebagai indikator untuk menilai kondisi kesehatan individu dan risiko terkena diabetes.
Namun, menginterpretasikan hasil dari berbagai tes diagnostik tersebut secara terpisah seringkali tidak memberikan gambaran yang komprehensif. Oleh karena itu, penerapan analisis regresi linier berganda dapat menjadi solusi untuk mengintegrasikan berbagai variabel tersebut dan memberikan model prediksi yang lebih akurat dan informatif. Analisis ini tidak hanya membantu dalam memprediksi risiko diabetes tetapi juga dapat digunakan untuk mengidentifikasi faktor-faktor utama yang berkontribusi terhadap perkembangan penyakit ini.
Maka dari itu penelitian ini bertujuan untuk mengaplikasikan analisis regresi linier berganda dalam konteks medis untuk memahami pengaruh berbagai hasil tes diagnostik terhadap risiko diabetes. Dengan demikian, diharapkan penelitian ini dapat memberikan kontribusi yang signifikan dalam upaya pencegahan dan pengelolaan diabetes melalui pemanfaatan data diagnostik yang lebih efektif.
Tujuan
- Mengetahui penggunaan analisis regresi berganda untuk mengetahui pengaruh hasil tes diagnostik terhadap diabetes
- Mengetahui pengaruh kadar gula darah (gluCose), tekanan darah (blood pressure), indeks massa tubuh (BMI), insulin dan umur (age) terhadap diabetes secara simultan
- Mengetahui pengaruh kadar gula (Glucose) terhadap diabetes secara parsial
- Mengetahui pengaruh tekanan darah (blood pressure) terhadap diabetes secara parsial
- Mengetahui pengaruh indeks massa tubuh (BMI) terhadap diabetes secara parsial
- Mengetahui pengaruh insuli terhadap diabetes secara parsial
- Mengetahui pengaruh umur terhadap diabetes secara parsial
Data
Data yang digunakan dalam penelitian ini berasal dari dataset yang tersedia di Kaggle. Dataset ini awalnya dikumpulkan oleh National Institute of Diabetes and Digestive and Kidney Diseases. Tujuan utama dari dataset ini adalah untuk memprediksi secara diagnostik apakah seorang pasien memiliki diabetes berdasarkan berbagai pengukuran diagnostik yang tercantum dalam dataset.
Beberapa batasan telah diterapkan pada pemilihan data ini dari database yang lebih besar. Khususnya, semua 768 pasien dalam dataset ini adalah wanita berusia minimal 21 tahun yang merupakan keturunan Pima Indian.
Tinjauan Pustaka
Tes Diagnostik
Tes diagnostik adalah serangkaian prosedur yang digunakan untuk mengidentifikasi penyakit atau kondisi medis pada seseorang melalui analisis tanda, gejala, dan hasil tes medis (Jutel, 2009). Tes ini bertujuan untuk memberikan gambaran yang lebih jelas tentang status kesehatan pasien, mendeteksi adanya kelainan atau gangguan, serta membantu dokter dalam membuat keputusan tentang perawatan atau tindakan lebih lanjut.
Diabetes
Diabetes adalah suatu penyakit metabolik yang diakibatkan oleh meningkatnya kadar glukosa atau gula darah. Glukosa adalah sumber energi utama untuk sel-sel tubuh, dan kadar glukosa darah diatur oleh hormon yang disebut insulin, yang diproduksi oleh pankreas. Pada penderita diabetes, tubuh tidak dapat memproduksi cukup insulin atau tidak dapat menggunakan insulin dengan efektif, yang mengakibatkan peningkatan kadar glukosa darah.
Analisis Regresi Linier Berganda
Regresi linier berganda merupakan suatu algoritma yang digunakan untuk menelusuri pola hubungan antara variabel terikat dengan dua atau lebih variabel bebas (Uyanik & Guler, 2013). Secara umum, persama regresi linier sederhana dirumuskan sebagai berikut: \[ Y_{duga} = \beta_0 + \beta_1X_1+\beta_2X_2+\beta_3X_3+\beta_4X_4+\beta_5X_5 (1) \]
Uji Asumsi Klasik Model Regresi Linier Berganda
Asumsi Normalitas
Uji normalitas adalah pengujian yang bertujuan untuk mengetahui apakah variabel independen maupun dependen mempunyai distribusi yang normal atau tidak. Untuk mengetahui hal tersebut dilakukan uji normalitas pada galat sebagai perwakilan dari sebaran model. Terdapat dua cara untuk mendeteksi apakah residual berdistribusi normal atau tidak yaitu dengan analisis grafik ataupun bisa menggunakan Kolmogorov-Smirnov. Apabila nilai signifikansi > 0.05 maka data yang digunakan telah berdistribusi normal. Akan tetapi sebaliknya, apabila nilai signifikansi < 0.05 maka data yang digunakan tidak berdistribusi normal dan tidak layak untuk masuk ke dalam model regresi.
Asumsi Homoskedastisitas
Uji asumsi ini bertujuan untuk mengetahui apakah dalam sebuah model regresi terjadi ketidaksamaan varians dari residual antara satu pengamatan dengan pengamatan yang lain. Ketika nilai signifikansinya diatas tingkat kepercayaan 5% maka dapat disimpulkan tidak mengandung adanya heteroskedastisitas.
Asumsi Multikolinearitas
Multikolinieritas merupakan kondisi dimana terdapat hubungan linier antar variabel prediktor dalam model regresi. Salah satu cara mengindentifikasi adanya multikolinieritas adalah menghitung nilai Varians Inflation Factor (VIF) dengan rumus sebagai berikut (Gujarati, 2009): \[ VIF = \frac{1}{1-R^{2}} \] Jika Nilai VIF > 10 maka terjadi multikolinieritas. Selain itu, ada atau tidaknya multikolinieritas antar variabel prediktor dapat dilihat melalui nilai tolerance (TOL), apabila nilai tolerance (TOL) < 0.1, maka menandakan adanya multikolinieritas antar variabel prediktor dalam model penelitian.
Asumsi Autokorelasi
Autokorelasi merupakan adanya korelasi antara residual pada periode t dengan residual pada periode sebelumnya (t-1). Cara mendeteksi autokorelasi dapat menggunakan Breusch Godfey Test. Jika nilai p > (0.05) , maka tidak terjadi autokorelasi atau asumsi terpenuhi. Sedangkan Jika nilai p < (0.05) , maka terjadi autokorelasi.
SOURCE CODE
Impor Data
> Data_Laprak <- read_excel("C:/Users/AJENG/Downloads/diabetes.xlsx")
> head(Data_Laprak)
# A tibble: 6 × 6
DiabetesPedigree Glucose BloodPressure Insulin BMI Age
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.627 148 72 0 33.6 50
2 0.351 85 66 0 26.6 31
3 0.672 183 64 0 23.3 32
4 0.167 89 66 94 28.1 21
5 2.29 137 40 168 43.1 33
6 0.201 116 74 0 25.6 30Persamaan regresi linier berganda dan Uji Simultan
> regresi <- lm(DiabetesPedigree~Glucose+BloodPressure+
+ Insulin+BMI+Age, data= Data_Laprak)
> summary(regresi)
Call:
lm(formula = DiabetesPedigree ~ Glucose + BloodPressure + Insulin +
BMI + Age, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.56489 -0.22127 -0.08855 0.15388 1.82861
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2201064 0.0685183 3.212 0.001372 **
Glucose 0.0006484 0.0004113 1.576 0.115332
BloodPressure -0.0002645 0.0006496 -0.407 0.684019
Insulin 0.0004216 0.0001098 3.841 0.000133 ***
BMI 0.0042575 0.0015909 2.676 0.007608 **
Age 0.0006561 0.0010694 0.613 0.539738
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.324 on 762 degrees of freedom
Multiple R-squared: 0.05013, Adjusted R-squared: 0.04389
F-statistic: 8.042 on 5 and 762 DF, p-value: 2.102e-07
> coefficients(regresi)
(Intercept) Glucose BloodPressure Insulin BMI
0.2201064269 0.0006483955 -0.0002644974 0.0004216193 0.0042574810
Age
0.0006560544 Uji Parsial
> regresi_P1 <- lm(DiabetesPedigree~Glucose,
+ data= Data_Laprak)
> regresi_P1
Call:
lm(formula = DiabetesPedigree ~ Glucose, data = Data_Laprak)
Coefficients:
(Intercept) Glucose
0.299818 0.001423
> summary(regresi_P1)
Call:
lm(formula = DiabetesPedigree ~ Glucose, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.45803 -0.23283 -0.09453 0.15523 1.86400
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2998179 0.0463767 6.465 1.8e-10 ***
Glucose 0.0014232 0.0003709 3.837 0.000135 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3284 on 766 degrees of freedom
Multiple R-squared: 0.01886, Adjusted R-squared: 0.01758
F-statistic: 14.73 on 1 and 766 DF, p-value: 0.0001346
>
> regresi_P2 <- lm(DiabetesPedigree~BloodPressure,
+ data= Data_Laprak)
> regresi_P2
Call:
lm(formula = DiabetesPedigree ~ BloodPressure, data = Data_Laprak)
Coefficients:
(Intercept) BloodPressure
0.4230626 0.0007064
> summary(regresi_P2)
Call:
lm(formula = DiabetesPedigree ~ BloodPressure, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.39557 -0.23163 -0.09863 0.15783 1.94184
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4230626 0.0443461 9.540 <2e-16 ***
BloodPressure 0.0007064 0.0006180 1.143 0.253
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3313 on 766 degrees of freedom
Multiple R-squared: 0.001703, Adjusted R-squared: 0.0003995
F-statistic: 1.307 on 1 and 766 DF, p-value: 0.2534
>
> regresi_P3 <- lm(DiabetesPedigree~ Insulin,
+ data= Data_Laprak)
> regresi_P3
Call:
lm(formula = DiabetesPedigree ~ Insulin, data = Data_Laprak)
Coefficients:
(Intercept) Insulin
0.4294164 0.0005321
> summary(regresi_P3)
Call:
lm(formula = DiabetesPedigree ~ Insulin, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.56034 -0.21967 -0.09266 0.15262 1.98313
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4294164 0.0143034 30.022 < 2e-16 ***
Insulin 0.0005321 0.0001021 5.212 2.4e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3258 on 766 degrees of freedom
Multiple R-squared: 0.03425, Adjusted R-squared: 0.03299
F-statistic: 27.17 on 1 and 766 DF, p-value: 2.402e-07
>
> regresi_P4 <- lm(DiabetesPedigree~BMI,
+ data= Data_Laprak)
> regresi_P4
Call:
lm(formula = DiabetesPedigree ~ BMI, data = Data_Laprak)
Coefficients:
(Intercept) BMI
0.282780 0.005911
> summary(regresi_P4)
Call:
lm(formula = DiabetesPedigree ~ BMI, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.46094 -0.22888 -0.09174 0.14974 1.82930
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.282780 0.049532 5.709 1.62e-08 ***
BMI 0.005911 0.001503 3.932 9.20e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3282 on 766 degrees of freedom
Multiple R-squared: 0.01978, Adjusted R-squared: 0.0185
F-statistic: 15.46 on 1 and 766 DF, p-value: 9.198e-05
>
> regresi_P5 <- lm(DiabetesPedigree~Age,
+ data= Data_Laprak)
> regresi_P5
Call:
lm(formula = DiabetesPedigree ~ Age, data = Data_Laprak)
Coefficients:
(Intercept) Age
0.4404456 0.0009455
> summary(regresi_P5)
Call:
lm(formula = DiabetesPedigree ~ Age, data = Data_Laprak)
Residuals:
Min 1Q Median 3Q Max
-0.39894 -0.23068 -0.09943 0.15035 1.95592
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4404456 0.0358702 12.279 <2e-16 ***
Age 0.0009455 0.0010174 0.929 0.353
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3314 on 766 degrees of freedom
Multiple R-squared: 0.001126, Adjusted R-squared: -0.0001777
F-statistic: 0.8638 on 1 and 766 DF, p-value: 0.353Plot
> Yduga <- predict(regresi)
> Residual <- resid(regresi)
> plot(Residual,Yduga, main= "Sebaran Residual")Asumsi
> ks.test(regresi$residual, ecdf(regresi$residual))
Asymptotic one-sample Kolmogorov-Smirnov test
data: regresi$residual
D = 0.0013021, p-value = 1
alternative hypothesis: two-sided
> bptest(regresi)
studentized Breusch-Pagan test
data: regresi
BP = 21.657, df = 5, p-value = 0.0006084
> ols_vif_tol(regresi)
Variables Tolerance VIF
1 Glucose 0.7913453 1.263671
2 BloodPressure 0.8654700 1.155442
3 Insulin 0.8553293 1.169140
4 BMI 0.8698072 1.149680
5 Age 0.8652194 1.155776
> bgtest(regresi)
Breusch-Godfrey test for serial correlation of order up to 1
data: regresi
LM test = 0.084894, df = 1, p-value = 0.7708HASIL DAN PEMBAHASAN
Uji Simultan
Hipotesis
\[ \mu_0 : \beta_{0} = \beta{_1} \\ \mu_1 : \beta_{0} \neq \beta{_1} \] Pengujian Hipotesis
Berdasarkan output, dapat diketahui p-value (2.102e-07) < α (0,05), maka tolak \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{1}, X_{2}, X_{3}, X_{4}, X_{5}\) (kadar gula darah (gluCose), tekanan darah (blood pressure), insulin, indeks massa tubuh (BMI) dan umur (age) ) secara simultan (bersama-sama) berpengaruh terhadap Diabetes (Y).
Persamaan Regresi
Persamaan Regresi Linier Berganda yang tersebut dapat ditulis sebagai berikut : \[ Y_{duga} = 0.22 + 0.00065X_1-0.00026X_2+0.00042X_3+0.004257X_4+0.000656X_5 (1) \]
Interpretasi \(β_{0}=0.22\) Jika variabel \(X_{1}, X_{2}, X_{3}, X_{4}, X_{5}\) (kadar gula darah (gluCose), tekanan daraH (blood pressure), insulin, indeks massa tubuh (BMI), dan umur (age) ) bernilai nol, maka estimasi Y (Tingkat Diabetes) akan naik sebesar 0.22.
Interpretasi \(β_{1}=0.00065\) Jika variabel \(X_{2}, X_{3}, X_{4}, X_{5}\) (tekanan darah (blood pressure), indeks massa tubuh (BMI), insulin dan umur (age) ) bernilai konstan, maka setiap naik satu kesatuan akan menaikkan \(X_{1}\) (Kandungan gula darah) akan naik sebesar 0.00065.
Interpretasi \(β_{2}=-0.00026\) Jika variabel \(X_{1}, X_{3}, X_{4}, X_{5}\) (kadar gula darah (gluCose), indeks massa tubuh (BMI), insulin dan umur (age) ) bernilai konstan, maka setiap naik satu kesatuan akan menaikkan \(X_{2}\) (Kandungan gula darah) akan turun sebesar 0.00026.
Interpretasi \(β_{3}=0.00042\) Jika variabel \(X_{1}, X_{2}, X_{4}, X_{5}\) (kadar gula darah (gluCose), tekanan daraH (blood pressure), indeks massa tubuh dan umur (age) ) bernilai konstan, maka setiap naik satu kesatuan akan menaikkan \(X_{3}\) (insulin) akan naik sebesar 0.00042.
Interpretasi \(β_{4}=0.0043\) Jika variabel \(X_{1}, X_{2}, X_{3}, X_{5}\) (kadar gula darah (gluCose), tekanan daraH (blood pressure), insulin dan umur (age)) bernilai konstan, maka setiap naik satu kesatuan akan menaikkan \(X_{4}\) (indeks massa tubuh (BMI) ) akan naik sebesar 0.0043.
Interpretasi \(β_{5}=0.00066\) Jika variabel \(X_{1}, X_{2}, X_{3}, X_{4}\) (kadar gula darah (gluCose), tekanan daraH (blood pressure), indeks massa tubuh (BMI), dan insulin) bernilai konstan, maka setiap naik satu kesatuan akan menaikkan \(X_{5}\) (Age) akan naik sebesar 0.00066.
Uji Parsial
Hipotesis
\[ \mu_0 : \beta_{0} = \beta{_1} \\ \mu_1 : \beta_{0} \neq \beta{_1} \]
Pengujian Hipotesis
- Bagi Variabel Tingkat Gula Darah
Berdasarkan output, dapat diketahui p-value (0.0001346) < α (0,05), maka tolak \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{1}\) (kadar gula darah (gluCose)) secara parsial berpengaruh terhadap Diabetes (Y).
- Bagi Variabel Tekanan Darah
Berdasarkan output, dapat diketahui p-value (0.2534) > α (0,05), maka terima \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{2}\) (tekanan darah (blood pressure)) secara parsial tidak berpengaruh terhadap Diabetes (Y).
- Bagi Variabel Insulin
Berdasarkan output, dapat diketahui p-value (2.402e-07) < α (0,05), maka tolak \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{3}\) (insulin) secara parsial berpengaruh terhadap Diabetes (Y).
- Bagi Variabel Indeks Massa Tubuh
Berdasarkan output, dapat diketahui p-value (2.102e-07) < α (0,05), maka tolak \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{4}\) (indeks massa tubuh (BMI) ) secara parsial berpengaruh terhadap Diabetes (Y).
- Bagi Variabel Umur
Berdasarkan output, dapat diketahui p-value (0.353) > α (0,05), maka terima \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa variabel \(X_{5}\) (umur (age)) secara parsial tidak berpengaruh terhadap Diabetes (Y).
Plot
- Plot
Sebaran residual terlihat menyempit di sekitar nilai Y dugaan yang lebih rendah dan menyebar lebih luas pada nilai Y dugaan yang lebih tinggi. Ini menunjukkan bahwa varians residual tidak konstan (heteroskedastisitas). Hal ini bisa menjadi indikasi bahwa model regresi mungkin tidak sepenuhnya cocok untuk data ini.
- QQ-Plot
Pada QQ-Plot hampir semua titik-titik jatuh dekat garis diagonal lurus, yang menunjukkan bahwa kumpulan data kemungkinan terdistribusi normal. Namun, ada beberapa titik yang sedikit menyimpang dari garis, sehingga tidak sepenuhnya normal.
Uji Asumsi
Asumsi Normalitas
Hipotesis \(H_{0}\) = Sisaan berdistribusi normal \(H_{1}\) = Sisaan tidak berdistribusi normal
Pengujian Hipotesis Berdasarkan output Kolmogorov-Smirnov test, dapat diketahui p-value (1) > α (0,05), maka terima \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa sisaan berdistribusi normal, sehingga memenuhi asumsi normalitas.
Asumsi Homoskedastisitas
Hipotesis \(H_{0}\) = Variansi galat bersifat homoskedastisitas \(H_{1}\) = Variansi galat tidak bersifat homoskedastisitas
Pengujian Hipotesis Berdasarkan output Breusch-Pagan Test, dapat diketahui p-value (0.0006084) < α (0,05), maka tolak \(H_{0}\) Dengan taraf nyata 5% dapat dibuktikan bahwa variansi galat tidak bersifat homoskedastisitas.
Asumsi Multikolinearitas
Hipotesis \(H_{0}\) = Tidak tejadi multikolinearitas \(H_{1}\) = Terjadi multikolinearitas
Pengujian Hipotesis Karena semua nilai Tolerance > 0.1 serta VIF < 10 maka terima \(H_{0}\). Dengan taraf nyata 5% dapat dibuktikan bahwa tidak terjadi multikolineraitas.
Asumsi Autokorelasi
Hipotesis \(H_{0}\) = Sisaan berdistribusi normal \(H_{1}\) = Sisaan tidak berdistribusi normal
Pengujian Hipotesis Berdasarkan output Breusch-Godfrey, dapat diketahui p-value (0.77) > α (0,05), maka terima \(H_{0}\). Dengan taraf nyata 5% sudah cukup bukti bahwa tidak terjadi gejala autokorelasi
KESIMPULAN
Kesimpulannya adalah kadar gula darah (gluCose), tekanan darah (blood pressure), insulin, indeks massa tubuh (BMI) dan umur (age) secara bersama-sama berpengaruh terhadap tingkat Diabetes, tetapi jika secara parsial (sebagian) variabel tekanan darah serta umur tidak berpengaruh terhadap diabetes.
DAFTAR PUSTAKA
Ghozali, Imam. (2018). Aplikasi Analisis Multivariate dengan Program IBM SPSS 25. Edisi 9. Semarang : Universitas Diponegoro.
Jutel A. (2009). Sociology of diagnosis: A preliminary review. Sociology of Healthand Illness.vol. 31(2):278–299.
Uyanik, G. K., & Guler, N. (2013). “A study on multiple linear regression analysis”. Procedia-Social and Behavioral Science. Vol. 106, 234-240.
Gujarati, D. N. (2009). Basic Econometrics (5th ed.). McGraw-Hill.