1 PENDAHULUAN
1.1 Latar Belakang
Diabetes Melitus (DM) adalah suatu kondisi medis kronis yang membutuhkan pengobatan yang berkelanjutan. Kondisi ini semakin meluas dengan peningkatan jumlah kasus serta perkembangan dalam hal diagnosis dan pengobatan. Di kalangan masyarakat umum, penyakit ini sering dikenal sebagai diabetes atau kencing manis. Berdasarkan berbagai penelitian, terdapat kecenderungan peningkatan angka kejadian diabetes baik di seluruh dunia maupun di Indonesia.
Diabetes Melitus adalah kondisi penyakit yang ditandai oleh peningkatan kadar gula darah kronis (hiperglikemia) serta gangguan metabolisme karbohidrat, lemak, dan protein. Penyebabnya adalah kelainan dalam sekresi insulin, kerja insulin, atau keduanya. Hiperglikemia kronis yang terjadi pada diabetes melitus dapat menyebabkan kerusakan dan gangguan fungsi organ-organ tertentu seperti mata, ginjal, saraf, jantung, dan pembuluh darah. Meskipun metabolisme semua jenis makanan terpengaruh pada diabetes melitus, kelainan metabolisme karbohidrat menjadi yang paling dominan. Oleh karena itu, diagnosis diabetes melitus biasanya didasarkan pada tingginya kadar glukosa dalam darah.
Diabetes Melitus (DM) berakibat terhadap organ tubuh, seperti mata, ginjal, jantung, dan pembuluh darah. Hal ini dikarenakan DM dapat menyebabkan berbagai komplikasi serius. Upaya pencegahan terhadap komplikasi yang lebih parah melibatkan diagnosis dini DM agar dapat melakukan intervensi lebih awal. Oleh karena itu, penulis ingin melakukan eksplorasi mendalam mengenai topik ini.
2 Tinjauan Pustaka
2.1 Statistika Deskriptif
Statistika deskriptif merupakan statistika yang membicarakan deskripsi data. Dalam statistika deskriptif hanya sekadar menyederhanakan dan menata data untuk memperoleh gambaran keseluruhan dari peubah yang dipelajari atau diamati. Diantara perhitungan statistika deskripsi yaitu rata-rata, median, minimum, maksimum, kuartil, range, ragam, dan pie chart
Rata-Rata
Rata-rata hitung atau nilai tengah, yang biasanya dilambangkan dengan \(\mu\) (untuk populasi) atau \(\bar{x}\) (untuk sampel), merupakan salah satu ukuran pemusatan yang sering digunakan dalam statistika. Hal ini disebabkan oleh sifat-sifatnya yang mudah dipahami dan dipelajari. Nilai tengah ini memainkan peran penting dalam statistika inferensial.
Rata-rata hitung atau nilai tengah menggambarkan pusat distribusi data. Ini dihitung dengan menjumlahkan semua nilai dalam sampel atau populasi, kemudian dibagi dengan jumlah total observasi. Rata-rata memberikan gambaran umum tentang di mana sebagian besar data terkonsentrasi.
Rumus rata-rata untuk populasi dan sampel sebagai berikut:
Median
Median adalah ukuran pemusatan yang digunakan dalam statistika yang menggambarkan nilai pengamatan yang terletak di tengah-tengah saat data sudah diurutkan. Untuk menghitung median, data harus diurutkan terlebih dahulu dari yang terkecil hingga yang terbesar atau sebaliknya.
Jika jumlah pengamatan (n) ganjil, maka median akan menjadi nilai pengamatan di tengah-tengah, di mana setengah pengamatan berada di bawahnya dan setengahnya lagi di atasnya. Namun, jika jumlah pengamatan (n) genap, median akan merupakan rata-rata dari dua nilai pengamatan yang berada di tengah.
Rumus median untuk data ganjil dan data genap sebagai berikut:
Minimum
Nilai minimum merupakan nilai terkecil dalam kumpulan data. Untuk mencari nilai minimum, perlu untuk menyusun data dalam urutan menaik (dari yang terkecil hingga yang terbesar) dan mengidentifikasi nilai yang paling rendah. Dalam statistika deskriptif, nilai minimum memberikan informasi tentang titik terendah dalam kumpulan data. Hal ini dapat membantu untuk memahami rentang nilai yang ada dan memberikan gambaran awal tentang sebaran data tersebut.
Maksimum
Nilai maksimum merupakan nilai terbesar dalam kumpulan data. Untuk mencari nilai maksimum, perlu untuk menyusun data dalam urutan menurun (dari yang terbesar hingga yang terkecil) dan mengidentifikasi nilai yang paling tinggi. Dalam statistika deskriptif, nilai maksimum memberikan informasi tentang titik tertinggi dalam kumpulan data. Hal ini dapat membantu untuk memahami rentang nilai yang ada dan memberikan gambaran awal tentang sebaran data tersebut.
Kuartil
Kuartil atau perempatan adalah nilai-nilai yang membagi data ke dalam empat bagian sama besar. Terdapat tiga kuartil yang umum digunakan dalam statistika deskriptif, yaitu kuartil pertama (Q1), kuartil kedua (Q2), dan kuartil ketiga (Q3). Kuartil kedua juga sering disebut sebagai median.
Untuk menghitung kuartil, Anda perlu mengurutkan data dalam urutan menaik dan kemudian mencari nilai yang berada pada posisi tertentu berdasarkan rumus yang telah disebutkan.
Berikut adalah rumus yang digunakan untuk menghitung kuartil:
Q1 (Kuartil Pertama): Nilai pada posisi ke (1/4) × n
Q2 (Kuartil Kedua atau Median): Nilai pada posisi ke (1/2) × n
Q3 (Kuartil Ketiga): Nilai pada posisi ke (3/4) × n
dimana n = jumlah pengamatan dalam data
Range
Range mengacu pada selisih antara nilai maksimum dan nilai minimum dalam kumpulan data. Range memberikan informasi tentang sebaran data dan dapat digunakan sebagai ukuran sederhana untuk mengukur rentang nilai yang tercakup dalam data tersebut. Untuk menghitung range, Anda perlu mengurutkan data dalam urutan menaik dan kemudian mengambil selisih antara nilai maksimum dan nilai minimum.
Kejelekan dari range adalah tidak mempertimbangkan semua informasi yang mungkin antara nilai terendah dan tertinggi dalam data tersebut.
Ragam Ukuran penyebaran terpenting dalam setiap pengujian statistik parametrik adalah ragam atau varians yang memiliki simbol \(\sigma^2\) untuk populasi dan \(\S^2\) untuk sampel.
Hasil perhitungan ragam adalah nilai kuadrat, yang berarti unitnya adalah unit data yang telah dipangkatkan dua. Untuk mendapatkan ukuran dispersi yang serupa dengan data asli, akar kuadrat dari ragam dapat dihitung, dan hasilnya disebut simpangan baku (standar deviasi).
Ragam memberikan informasi tentang sebaran data secara lebih komprehensif daripada range. Semakin besar ragam, semakin besar variabilitas data, sementara ragam yang lebih kecil menunjukkan bahwa data cenderung lebih terkonsentrasi di sekitar nilai rata-rata.
Berikut merupakan rumus ragam untuk populasi dan sampel:
2.2 Analisis Regresi Logistik
Regresi logistik adalah metode statistika yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen (variabel prediktor) dengan variabel dependen biner (variabel target) yang memiliki dua kategori atau hasil yang mungkin. Dalam regresi logistik, variabel dependen umumnya diinterpretasikan sebagai probabilitas atau peluang kejadian sukses dalam kategori yang ditentukan.
Regresi logistik menggunakan fungsi logistik atau sigmoid untuk memodelkan hubungan antara variabel prediktor dan peluang kejadian sukses. Fungsi logistik menghasilkan nilai antara 0 dan 1, yang dapat diinterpretasikan sebagai probabilitas kejadian sukses. Regresi logistik memperkirakan koefisien regresi untuk setiap variabel prediktor yang memberikan kontribusi terhadap log-odds (logaritma peluang sukses dibagi dengan peluang kegagalan) dari variabel dependen.
Beberapa konsep yang relevan dalam regresi logistik meliputi:
Variabel dependen biner: Variabel dependen dalam regresi logistik adalah variabel biner yang menggambarkan hasil atau kategori yang mungkin. Misalnya, bisa berupa variabel yang menunjukkan apakah seseorang mengalami suatu kejadian atau tidak.
Koefisien regresi: Koefisien regresi dalam regresi logistik mengindikasikan pengaruh variabel prediktor terhadap peluang kejadian sukses. Koefisien positif menunjukkan hubungan positif, sedangkan koefisien negatif menunjukkan hubungan negatif.
Odds ratio: Odds ratio menggambarkan perubahan dalam peluang kejadian sukses sebagai hasil dari perubahan satu unit dalam variabel prediktor. Odds ratio yang lebih besar dari 1 menunjukkan peningkatan peluang, sementara yang lebih kecil dari 1 menunjukkan penurunan peluang.
Evaluasi model: Dalam regresi logistik, terdapat berbagai metode untuk mengevaluasi kualitas model, seperti akurasi, presisi, recall, dan area di bawah kurva ROC (AUC-ROC).
Multiple Logistic Regression atau Regresi logistik ganda memiliki model regresi logistik yang lebih dari 1 prediktor, yang dinyatakan sebagai:
3 SOURCE CODE
3.1 Library
> #library(readr)
> #library(generalhoslem)
> #library(pscl)3.2 Data
> data<-read.csv('C:/Users/satri/Downloads/diabetes.csv')
> data
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
1 6 148 72 35 0 33.6
2 1 85 66 29 0 26.6
3 8 183 64 0 0 23.3
4 1 89 66 23 94 28.1
5 0 137 40 35 168 43.1
6 5 116 74 0 0 25.6
7 3 78 50 32 88 31.0
8 10 115 0 0 0 35.3
9 2 197 70 45 543 30.5
10 8 125 96 0 0 0.0
11 4 110 92 0 0 37.6
12 10 168 74 0 0 38.0
13 10 139 80 0 0 27.1
14 1 189 60 23 846 30.1
15 5 166 72 19 175 25.8
16 7 100 0 0 0 30.0
17 0 118 84 47 230 45.8
18 7 107 74 0 0 29.6
19 1 103 30 38 83 43.3
20 1 115 70 30 96 34.6
21 3 126 88 41 235 39.3
22 8 99 84 0 0 35.4
23 7 196 90 0 0 39.8
24 9 119 80 35 0 29.0
25 11 143 94 33 146 36.6
26 10 125 70 26 115 31.1
27 7 147 76 0 0 39.4
28 1 97 66 15 140 23.2
29 13 145 82 19 110 22.2
30 5 117 92 0 0 34.1
31 5 109 75 26 0 36.0
32 3 158 76 36 245 31.6
33 3 88 58 11 54 24.8
34 6 92 92 0 0 19.9
35 10 122 78 31 0 27.6
36 4 103 60 33 192 24.0
37 11 138 76 0 0 33.2
38 9 102 76 37 0 32.9
39 2 90 68 42 0 38.2
40 4 111 72 47 207 37.1
41 3 180 64 25 70 34.0
42 7 133 84 0 0 40.2
43 7 106 92 18 0 22.7
44 9 171 110 24 240 45.4
45 7 159 64 0 0 27.4
46 0 180 66 39 0 42.0
47 1 146 56 0 0 29.7
48 2 71 70 27 0 28.0
49 7 103 66 32 0 39.1
50 7 105 0 0 0 0.0
51 1 103 80 11 82 19.4
52 1 101 50 15 36 24.2
53 5 88 66 21 23 24.4
54 8 176 90 34 300 33.7
55 7 150 66 42 342 34.7
56 1 73 50 10 0 23.0
57 7 187 68 39 304 37.7
58 0 100 88 60 110 46.8
59 0 146 82 0 0 40.5
60 0 105 64 41 142 41.5
61 2 84 0 0 0 0.0
62 8 133 72 0 0 32.9
63 5 44 62 0 0 25.0
64 2 141 58 34 128 25.4
65 7 114 66 0 0 32.8
66 5 99 74 27 0 29.0
67 0 109 88 30 0 32.5
68 2 109 92 0 0 42.7
69 1 95 66 13 38 19.6
70 4 146 85 27 100 28.9
71 2 100 66 20 90 32.9
72 5 139 64 35 140 28.6
73 13 126 90 0 0 43.4
74 4 129 86 20 270 35.1
75 1 79 75 30 0 32.0
76 1 0 48 20 0 24.7
77 7 62 78 0 0 32.6
78 5 95 72 33 0 37.7
79 0 131 0 0 0 43.2
80 2 112 66 22 0 25.0
81 3 113 44 13 0 22.4
82 2 74 0 0 0 0.0
83 7 83 78 26 71 29.3
84 0 101 65 28 0 24.6
85 5 137 108 0 0 48.8
86 2 110 74 29 125 32.4
87 13 106 72 54 0 36.6
88 2 100 68 25 71 38.5
89 15 136 70 32 110 37.1
90 1 107 68 19 0 26.5
91 1 80 55 0 0 19.1
92 4 123 80 15 176 32.0
93 7 81 78 40 48 46.7
94 4 134 72 0 0 23.8
95 2 142 82 18 64 24.7
96 6 144 72 27 228 33.9
97 2 92 62 28 0 31.6
98 1 71 48 18 76 20.4
99 6 93 50 30 64 28.7
100 1 122 90 51 220 49.7
DiabetesPedigreeFunction Age Outcome
1 0.627 50 1
2 0.351 31 0
3 0.672 32 1
4 0.167 21 0
5 2.288 33 1
6 0.201 30 0
7 0.248 26 1
8 0.134 29 0
9 0.158 53 1
10 0.232 54 1
11 0.191 30 0
12 0.537 34 1
13 1.441 57 0
14 0.398 59 1
15 0.587 51 1
16 0.484 32 1
17 0.551 31 1
18 0.254 31 1
19 0.183 33 0
20 0.529 32 1
21 0.704 27 0
22 0.388 50 0
23 0.451 41 1
24 0.263 29 1
25 0.254 51 1
26 0.205 41 1
27 0.257 43 1
28 0.487 22 0
29 0.245 57 0
30 0.337 38 0
31 0.546 60 0
32 0.851 28 1
33 0.267 22 0
34 0.188 28 0
35 0.512 45 0
36 0.966 33 0
37 0.420 35 0
38 0.665 46 1
39 0.503 27 1
40 1.390 56 1
41 0.271 26 0
42 0.696 37 0
43 0.235 48 0
44 0.721 54 1
45 0.294 40 0
46 1.893 25 1
47 0.564 29 0
48 0.586 22 0
49 0.344 31 1
50 0.305 24 0
51 0.491 22 0
52 0.526 26 0
53 0.342 30 0
54 0.467 58 1
55 0.718 42 0
56 0.248 21 0
57 0.254 41 1
58 0.962 31 0
59 1.781 44 0
60 0.173 22 0
61 0.304 21 0
62 0.270 39 1
63 0.587 36 0
64 0.699 24 0
65 0.258 42 1
66 0.203 32 0
67 0.855 38 1
68 0.845 54 0
69 0.334 25 0
70 0.189 27 0
71 0.867 28 1
72 0.411 26 0
73 0.583 42 1
74 0.231 23 0
75 0.396 22 0
76 0.140 22 0
77 0.391 41 0
78 0.370 27 0
79 0.270 26 1
80 0.307 24 0
81 0.140 22 0
82 0.102 22 0
83 0.767 36 0
84 0.237 22 0
85 0.227 37 1
86 0.698 27 0
87 0.178 45 0
88 0.324 26 0
89 0.153 43 1
90 0.165 24 0
91 0.258 21 0
92 0.443 34 0
93 0.261 42 0
94 0.277 60 1
95 0.761 21 0
96 0.255 40 0
97 0.130 24 0
98 0.323 22 0
99 0.356 23 0
100 0.325 31 1
>
> Y<-as.factor(data$Outcome)
> X1<-data$Glucose
> X2<-data$BloodPressure
> X3<-data$BMI
> X4<-data$DiabetesPedigreeFunction
>
>
> # Membentuk data frame
> data_diabetes<-data.frame(X1,X2,X3,X4,Y)
> str(data_diabetes)
'data.frame': 100 obs. of 5 variables:
$ X1: int 148 85 183 89 137 116 78 115 197 125 ...
$ X2: int 72 66 64 66 40 74 50 0 70 96 ...
$ X3: num 33.6 26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 ...
$ X4: num 0.627 0.351 0.672 0.167 2.288 ...
$ Y : Factor w/ 2 levels "0","1": 2 1 2 1 2 1 2 1 2 2 ...3.3 Plot
Pie Chart
> #YES<-sum(data_diabetes$Y == 1)
> #NO<-sum(data_diabetes$Y == 0)
> #slices<-c(YES,NO)
> #lbls<-c("Teridentifikasi","Tidak Teridentifikasi")
> #lbls<-paste(lbls,slices)
> #lbls<-paste(lbls)
> #pie(slices, labels=lbls, col=rainbow(length(lbls)),main = "Pie Chart of Diabetes")4 Hasil dan Pembahasan
4.1 Statistika Deskriptif
Dalam kasus diabetes kali ini, menggunakan beberapa perhitungan statistika deskriptif, diantaranya minimum, maksimum, median, mean, kuantil 1, kuantil 2, dan histogram
> summary(data_diabetes)
X1 X2 X3 X4 Y
Min. : 0.0 Min. : 0.00 Min. : 0.00 Min. :0.1020 0:63
1st Qu.: 99.0 1st Qu.: 64.00 1st Qu.:25.30 1st Qu.:0.2480 1:37
Median :112.5 Median : 72.00 Median :31.80 Median :0.3430
Mean :117.9 Mean : 68.07 Mean :31.00 Mean :0.4689
3rd Qu.:139.0 3rd Qu.: 80.00 3rd Qu.:37.23 3rd Qu.:0.5837
Max. :197.0 Max. :110.00 Max. :49.70 Max. :2.2880 Berdasarkan output di atas, diperoleh nilai:
Minimum
X1 = 0, X2 = 0, X3 = 0, X4 = 0.102, Y = 0
Kuartil 1
X1 = 99, X2 = 64, X3 = 25.3, X4 = 0.248
Median
X1 = 112.5, X2 = 72, X3 = 31.8, X4 = 0.3430
Rata-Rata
X1 = 117.9, X2 = 68.07, X3 = 31, X4 = 0.4689
Kuartil 3
X1 = 139, X2 = 80, X3 = 37.23, X4 = 0.5837
Maksimum
X1 = 197, X2 = 110, X3 = 49.7, X4 = 2.2880
Ragam
> var(data_diabetes$X1)
[1] 1136.542Berdasarkan output di atas didapatkan ragam pada variabel X1 sebesar 1136.542
> var(data_diabetes$X2)
[1] 484.4092Berdasarkan output di atas didapatkan ragam pada variabel X2 sebesar 484.4092
> var(data_diabetes$X3)
[1] 92.38544Berdasarkan output di atas didapatkan ragam pada variabel X3 sebesar 92.38544
> var(data_diabetes$X4)
[1] 0.1377673Berdasarkan output di atas didapatkan ragam pada variabel X4 sebesar 0.1377673
Pie Chart
> YES<-sum(data_diabetes$Y == 1)
> NO<-sum(data_diabetes$Y == 0)
> slices<-c(YES,NO)
> lbls<-c("Teridentifikasi","Tidak Teridentifikasi")
> lbls<-paste(lbls,slices)
> lbls<-paste(lbls)
> pie(slices, labels=lbls, col=rainbow(length(lbls)),main = "Pie Chart of Diabetes")Dari pie chart di atas diketahui bahwa orang yang terindikasi diabetes sebanyak 37 orang dan yang tidak terindikasi diabetes sebanyak 63 orang
4.2 Asumsi Nonmultikolinieritas
> reg1<-lm(X1~X2+X3+X4, data=data_diabetes)
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3 + X4, data = data_diabetes)
Residuals:
Min 1Q Median 3Q Max
-104.192 -20.229 -5.729 20.517 83.257
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 75.1762 12.6491 5.943 4.49e-08 ***
X2 0.2750 0.1596 1.723 0.0882 .
X3 0.5592 0.3762 1.487 0.1404
X4 14.3138 8.9807 1.594 0.1143
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 32.03 on 96 degrees of freedom
Multiple R-squared: 0.1246, Adjusted R-squared: 0.09729
F-statistic: 4.556 on 3 and 96 DF, p-value: 0.004984
> R2_1<-1/(1-0.1246)
> R2_1
[1] 1.142335Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel Glucose (X1) dengan variabel prediktor lainnya
> reg2<-lm(X2~X1+X3+X4, data = data_diabetes)
> summary(reg2)
Call:
lm(formula = X2 ~ X1 + X3 + X4, data = data_diabetes)
Residuals:
Min 1Q Median 3Q Max
-79.799 -5.539 3.223 10.332 52.440
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.2089 8.7915 3.436 0.000874 ***
X1 0.1090 0.0633 1.723 0.088169 .
X3 0.8248 0.2243 3.677 0.000390 ***
X4 -1.2044 5.7285 -0.210 0.833919
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 20.17 on 96 degrees of freedom
Multiple R-squared: 0.1855, Adjusted R-squared: 0.1601
F-statistic: 7.289 on 3 and 96 DF, p-value: 0.0001867
> R2_2<-1/(1-0.1855)
> R2_2
[1] 1.227747Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel BloodPressure (X2) dengan variabel prediktor lainnya
> reg3<-lm(X3~X1+X2+X4,data = data_diabetes)
> summary(reg3)
Call:
lm(formula = X3 ~ X1 + X2 + X4, data = data_diabetes)
Residuals:
Min 1Q Median 3Q Max
-34.288 -4.090 0.142 4.353 22.849
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.74491 3.71222 3.703 0.000356 ***
X1 0.04024 0.02707 1.487 0.140395
X2 0.14965 0.04070 3.677 0.000390 ***
X4 4.94477 2.38791 2.071 0.041066 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 8.592 on 96 degrees of freedom
Multiple R-squared: 0.2251, Adjusted R-squared: 0.2009
F-statistic: 9.298 on 3 and 96 DF, p-value: 1.861e-05
> R2_3<-1/(1-0.2251)
> R2_3
[1] 1.290489Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel BMI (X3) dengan variabel prediktor lainnya
> reg4<-lm(X4~X1+X2+X3, data = data_diabetes)
> summary(reg4)
Call:
lm(formula = X4 ~ X1 + X2 + X3, data = data_diabetes)
Residuals:
Min 1Q Median 3Q Max
-0.44829 -0.22156 -0.07322 0.12341 1.66935
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0145088 0.1659434 0.087 0.9305
X1 0.0018010 0.0011300 1.594 0.1143
X2 -0.0003821 0.0018176 -0.210 0.8339
X3 0.0086469 0.0041757 2.071 0.0411 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3593 on 96 degrees of freedom
Multiple R-squared: 0.09136, Adjusted R-squared: 0.06296
F-statistic: 3.217 on 3 and 96 DF, p-value: 0.02621
> R2_4<-1/(1-0.09136)
> R2_4
[1] 1.100546Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel DiabetesPedigreeFunction (X4) dengan variabel prediktor lainnya
4.3 Analisis Regresi Logistik
4.3.1 Pendugaan parameter
> reglog<-glm(Y~X1+X2+X3+X4, family = binomial, data = data_diabetes)
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8256 -0.8745 -0.4772 0.8629 2.3813
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.332102 1.575505 -4.019 5.84e-05 ***
X1 0.032013 0.008988 3.562 0.000369 ***
X2 -0.004883 0.012446 -0.392 0.694802
X3 0.067962 0.032368 2.100 0.035756 *
X4 0.105919 0.655359 0.162 0.871606
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 131.79 on 99 degrees of freedom
Residual deviance: 104.41 on 95 degrees of freedom
AIC: 114.41
Number of Fisher Scoring iterations: 5Berdasarkan hasil output di atas, diperoleh persamaan regresi logistik untuk pemasalahan ini yaitu
Interpretasi:
Intersept = -6.332102, maka apabila variabel prediktor konstan Yduga akan turun sebesar 6.33102 satuan
\(\beta1\) = 0.032013, maka apabila variabel lain konstan Yduga akan naik sebesar 0.032013X1 satuan
\(\beta2\) = -0.004883, maka apabila variabel lain konstan Yduga akan turun sebesar 0.004883X2 satuan
\(\beta3\) = 0.067962, maka apabila variabel lain konstat Yduga akan naik sebesar 0.067962X3 satuan
\(\beta4\) = 0.105919, maka apabila variabel lain konstan Yduga akan naik sebesar 0.105919X4 satuan
4.3.2 Uji Signifikansi Keseluruhan Model
> pR2(reglog)
Error in pR2(reglog): could not find function "pR2"
> qchisq(0.95,3)
[1] 7.814728Berdasarkan output di atas terlihat bahwa nilai G2 sebesar 27.3780646 dan nilai \(X^2(0.05;3) = 7.814728\).
Keputusan : G2 > \(X^2\), maka tolak H0
Kesimpulan : Dengan taraf nyata 5% secara simultan disimpulkan bahwa Glucose, BloodPressure, BMI, dan DiabetesPedigreeFunction berpengaruh signifikan terhadap hasil diabetes
4.3.3 Uji Parsial Parameter Model
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8256 -0.8745 -0.4772 0.8629 2.3813
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.332102 1.575505 -4.019 5.84e-05 ***
X1 0.032013 0.008988 3.562 0.000369 ***
X2 -0.004883 0.012446 -0.392 0.694802
X3 0.067962 0.032368 2.100 0.035756 *
X4 0.105919 0.655359 0.162 0.871606
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 131.79 on 99 degrees of freedom
Residual deviance: 104.41 on 95 degrees of freedom
AIC: 114.41
Number of Fisher Scoring iterations: 5Berdasarkan output di atas, dapat dilihat p-value pada masing-masing variabel prediktor.
Keputusan :
Untuk \(\beta1\) p-value = 0.000369 < \(\alpha\) = 0.05, maka tolak H0
Untuk \(\beta2\) p-value = 0.694802 > \(\alpha\) = 0.05, maka terima H0
Untuk \(\beta3\) p-value = 0.035756 < \(\alpha\) = 0.05, maka tolak H0
Untuk \(\beta4\) p-value = 0.871606 > \(\alpha\) = 0.05, maka terima H0
Kesimpulan : Dengan taraf nyata 5% secara parsial dapat disimpulkan bahwa variabel Glucose dan BMI berpengaruh signifikan terhadap hasil diabetes, sedangkan BloodPressure dan DiabetesPedigreeFunction tidak berpengaruh signifikan terhadap hasil diabetes
4.3.4 R-Square
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8256 -0.8745 -0.4772 0.8629 2.3813
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.332102 1.575505 -4.019 5.84e-05 ***
X1 0.032013 0.008988 3.562 0.000369 ***
X2 -0.004883 0.012446 -0.392 0.694802
X3 0.067962 0.032368 2.100 0.035756 *
X4 0.105919 0.655359 0.162 0.871606
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 131.79 on 99 degrees of freedom
Residual deviance: 104.41 on 95 degrees of freedom
AIC: 114.41
Number of Fisher Scoring iterations: 5
> R_square<-1-(104.41/131.79)
> R_square
[1] 0.2077548Berdasarkan output di atas dapat disimpulkan bahwa keempat variabel prediktor hanya mampu menjelaskan 20.77548% terhadap hasil diabetes, sedangkan 79.22452% variabel di luar model.
4.3.5 Odds Ratio
> beta<-(coef(reglog))
> beta
(Intercept) X1 X2 X3 X4
-6.332101758 0.032012859 -0.004883137 0.067962364 0.105918839
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X2 X3 X4
0.001778292 1.032530782 0.995128767 1.070325025 1.111731643
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -6.332101758 0.001778292
X1 0.032012859 1.032530782
X2 -0.004883137 0.995128767
X3 0.067962364 1.070325025
X4 0.105918839 1.111731643Berdasarkan output di atas dapat disimpulkan bahwa:
Variabel Glucose (X1) memiliki odds ratio sebesar 1.032530782 yang berarti diabetes meningkat 1.0325 kali pada setiap peningkatan satu unit glucose.
Variabel BloodPressure (X2) memiliki odds ratio sebesar 0.995128767 yang berarti diabetes meningkat 0.995 kali pada setiap peningkatan satu unit 0.995128767
Variabel BMI (X3) memiliki odds ratio sebesar 1.070325025 yang berarti diabetes meningkat 1.07 kali pada setiap peningkatan satu unit BMI
Variabel DiabetesPedigreeFunction (X4) memiliki odds ratio sebesar 1.111731643 yang berarti diabetes meningkat 1.11 kali pada setiap peningkatan satu unitDiabetesPedigreeFunction
4.3.6 Membentuk klasifikasi
> yp_hat<-fitted(reglog)
> data_diabetes$yp_hat<-yp_hat
> data_diabetes
X1 X2 X3 X4 Y yp_hat
1 148 72 33.6 0.627 1 0.599687220
2 85 66 26.6 0.351 0 0.110237309
3 183 64 23.3 0.672 1 0.704419152
4 89 66 28.1 0.167 0 0.132640224
5 137 40 43.1 2.288 1 0.736887707
6 116 74 25.6 0.201 0 0.228141348
7 78 50 31.0 0.248 1 0.124973282
8 115 0 35.3 0.134 0 0.440937423
9 197 70 30.5 0.158 1 0.848411879
10 125 96 0.0 0.232 1 0.058706620
11 110 92 37.6 0.191 0 0.335297699
12 168 74 38.0 0.537 1 0.789872099
13 139 80 27.1 1.441 0 0.430807773
14 189 60 30.1 0.398 1 0.819529517
15 166 72 25.8 0.587 1 0.609699746
16 100 0 30.0 0.484 1 0.261018759
17 118 84 45.8 0.551 1 0.551385349
18 107 74 29.6 0.254 1 0.226270940
19 103 30 43.3 0.183 0 0.445438652
20 115 70 34.6 0.529 1 0.357802734
21 126 88 39.3 0.704 0 0.504322438
22 99 84 35.4 0.388 0 0.244891161
23 196 90 39.8 0.451 1 0.905133150
24 119 80 29.0 0.263 1 0.286088604
25 143 94 36.6 0.254 1 0.574698713
26 125 70 31.1 0.205 1 0.368892461
27 147 76 39.4 0.257 1 0.669872481
28 97 66 23.2 0.487 0 0.127768798
29 145 82 22.2 0.245 0 0.364487417
30 117 92 34.1 0.337 0 0.335673542
31 109 75 36.0 0.546 0 0.330824438
32 158 76 31.6 0.851 1 0.643952120
33 88 58 24.8 0.267 0 0.110617887
34 92 92 19.9 0.188 0 0.078434965
35 122 78 27.6 0.512 0 0.293711466
36 103 60 24.0 0.966 0 0.168772597
37 138 76 33.2 0.420 0 0.503847612
38 102 76 32.9 0.665 1 0.243882405
39 90 68 38.2 0.503 1 0.243505031
40 111 72 37.1 1.390 1 0.386599359
41 180 64 34.0 0.271 0 0.811091245
42 133 84 40.2 0.696 0 0.579624353
43 106 92 22.7 0.235 0 0.139391795
44 171 110 45.4 0.721 1 0.854060622
45 159 64 27.4 0.294 0 0.583882219
46 180 66 42.0 1.893 1 0.896863418
47 146 56 29.7 0.564 0 0.536569679
48 71 70 28.0 0.586 0 0.080468854
49 103 66 39.1 0.344 1 0.339998744
50 105 0 0.0 0.305 0 0.050285418
51 103 80 19.4 0.491 0 0.113552941
52 101 50 24.2 0.526 0 0.162117384
53 88 66 24.4 0.342 0 0.105010533
54 176 90 33.7 0.467 1 0.768964750
55 150 66 34.7 0.718 0 0.641500749
56 73 50 23.0 0.248 0 0.065994085
57 187 68 37.7 0.254 1 0.871168945
58 100 88 46.8 0.962 0 0.430944331
59 146 82 40.5 1.781 0 0.707334964
60 105 64 41.5 0.173 0 0.390666788
61 84 0 0.0 0.304 0 0.026318239
62 133 72 32.9 0.270 1 0.459733012
63 44 62 25.0 0.587 0 0.030322987
64 141 58 25.4 0.699 0 0.425256998
65 114 66 32.8 0.258 1 0.321163430
66 99 74 29.0 0.203 0 0.177734748
67 109 88 32.5 0.855 1 0.274267269
68 109 92 42.7 0.845 0 0.425446414
69 95 66 19.6 0.334 0 0.095718599
70 146 85 28.9 0.189 0 0.477724748
71 100 66 32.9 0.867 1 0.245027755
72 139 64 28.6 0.411 0 0.448290818
73 126 90 43.4 0.583 1 0.567915980
74 129 86 35.1 0.231 0 0.447087235
75 79 75 32.0 0.396 0 0.124272128
76 0 48 24.7 0.140 0 0.007592346
77 62 78 32.6 0.391 0 0.077901860
78 95 72 37.7 0.370 0 0.260938783
79 131 0 43.2 0.270 1 0.695541298
80 112 66 25.0 0.307 0 0.207942495
81 113 44 22.4 0.140 0 0.199037457
82 74 0 0.0 0.102 0 0.018847521
83 83 78 29.3 0.767 0 0.120958763
84 101 65 24.6 0.237 0 0.151970372
85 137 108 48.8 0.227 1 0.704097758
86 110 74 32.4 0.698 0 0.289846953
87 106 72 36.6 0.178 0 0.313447999
88 100 68 38.5 0.324 0 0.307464374
89 136 70 37.1 0.153 1 0.554146025
90 107 68 26.5 0.165 0 0.194614571
91 80 55 19.1 0.258 0 0.062138451
92 123 80 32.0 0.443 0 0.362748792
93 81 78 46.7 0.261 0 0.285272266
94 134 72 23.8 0.277 1 0.321448998
95 142 82 24.7 0.761 0 0.394742961
96 144 72 33.9 0.255 0 0.563922659
97 92 62 31.6 0.130 0 0.178243566
98 71 48 20.4 0.323 0 0.053507798
99 93 50 28.7 0.356 0 0.166472609
100 122 90 49.7 0.325 1 0.633239073
> class<-table(data_diabetes$Y,data_diabetes$yp_hat>0.5)
> class
FALSE TRUE
0 54 9
1 16 21Berdasarkan output di atas, didapatkan tabel class tersebut sebagai klasifikasi dari model
4.3.7 Uji Kelayakan Model
> generalhoslem::logitgof(data_diabetes$Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: data_diabetes$Y, fitted(reglog)
X-squared = 13.893, df = 8, p-value = 0.08459Berdasarkan output di atas, dapat dilihat p-value = 0.08459
Keputusan = p-value>\(\alpha\) = 0.05, maka terima H0
Kesimpulan = Dengan taraf nyata 5% disimpulkan bahwa model layak digunakan
5 Kesimpulan
Berdasarkan pembahasan di atas ditarik kesimpulan bahwa keempat variabel yang diteliti secara serempak berpengaruh nyata terhadap adanya penyakit diabetes. Variabel tersebut adalah glucose, Blood Pressure, BMI, dan Diabetes Pedigree Function. Namun secara parsial, faktor yang menyebabkan adanya penyakit diabetes yaitu Glucose dan BMI, sedangkan BloodPressure dan DiabetesPedigreeFunction tidak termasuk faktor yang signifikan. Persamaan regresi logistik yang dihasilkan dapat digunakan untuk memprediksi probabilitas seseorang terkena penyakit diabetes atau tidak.
6 Daftar Pustaka
Sumber data : https://www.kaggle.com/code/yazidivan1/diabetes-prediction-using-logistic-regression/notebook
Kardika, Ida Bagus Wayan dan I Wayan Putu Sutirta Yasa. 2013. Preanalitik dan Interpretasi Glukosa Darah untuk Diagnosis Diabetes Melitus. (online)(https://www.academia.edu/9560607/PREANALITIK_DAN_INTERPRETASI_GLUKOSA_DARAH_UNTUK_DIAGNOSIS_DIABETES_MELITUS_PREANALITIC_AND_INTERPRETATION_BLOOD_GLUCOSE_FOR_DIAGNOSE_DIABETIC_MELITUS)
Harlan, Johan. 2018. Analisis Regresi Logistik. Depok: Gunadarma
Yitnosumarto, Suntoyo. 1994. Dasar-dasar Statistika Dengan Penekanan Terapan dalam Bidang Agrokompleks Teknologi dan Sosial. Jakarta: PT RajaGrafindo Persada