1 PENDAHULUAN

1.1 Latar Belakang

Diabetes Melitus (DM) adalah suatu kondisi medis kronis yang membutuhkan pengobatan yang berkelanjutan. Kondisi ini semakin meluas dengan peningkatan jumlah kasus serta perkembangan dalam hal diagnosis dan pengobatan. Di kalangan masyarakat umum, penyakit ini sering dikenal sebagai diabetes atau kencing manis. Berdasarkan berbagai penelitian, terdapat kecenderungan peningkatan angka kejadian diabetes baik di seluruh dunia maupun di Indonesia.

Diabetes Melitus adalah kondisi penyakit yang ditandai oleh peningkatan kadar gula darah kronis (hiperglikemia) serta gangguan metabolisme karbohidrat, lemak, dan protein. Penyebabnya adalah kelainan dalam sekresi insulin, kerja insulin, atau keduanya. Hiperglikemia kronis yang terjadi pada diabetes melitus dapat menyebabkan kerusakan dan gangguan fungsi organ-organ tertentu seperti mata, ginjal, saraf, jantung, dan pembuluh darah. Meskipun metabolisme semua jenis makanan terpengaruh pada diabetes melitus, kelainan metabolisme karbohidrat menjadi yang paling dominan. Oleh karena itu, diagnosis diabetes melitus biasanya didasarkan pada tingginya kadar glukosa dalam darah.

Diabetes Melitus (DM) berakibat terhadap organ tubuh, seperti mata, ginjal, jantung, dan pembuluh darah. Hal ini dikarenakan DM dapat menyebabkan berbagai komplikasi serius. Upaya pencegahan terhadap komplikasi yang lebih parah melibatkan diagnosis dini DM agar dapat melakukan intervensi lebih awal. Oleh karena itu, penulis ingin melakukan eksplorasi mendalam mengenai topik ini.

2 Tinjauan Pustaka

2.1 Statistika Deskriptif

Statistika deskriptif merupakan statistika yang membicarakan deskripsi data. Dalam statistika deskriptif hanya sekadar menyederhanakan dan menata data untuk memperoleh gambaran keseluruhan dari peubah yang dipelajari atau diamati. Diantara perhitungan statistika deskripsi yaitu rata-rata, median, minimum, maksimum, kuartil, range, ragam, dan pie chart

Rata-Rata

Rata-rata hitung atau nilai tengah, yang biasanya dilambangkan dengan \(\mu\) (untuk populasi) atau \(\bar{x}\) (untuk sampel), merupakan salah satu ukuran pemusatan yang sering digunakan dalam statistika. Hal ini disebabkan oleh sifat-sifatnya yang mudah dipahami dan dipelajari. Nilai tengah ini memainkan peran penting dalam statistika inferensial.

Rata-rata hitung atau nilai tengah menggambarkan pusat distribusi data. Ini dihitung dengan menjumlahkan semua nilai dalam sampel atau populasi, kemudian dibagi dengan jumlah total observasi. Rata-rata memberikan gambaran umum tentang di mana sebagian besar data terkonsentrasi.

Rumus rata-rata untuk populasi dan sampel sebagai berikut:

Median

Median adalah ukuran pemusatan yang digunakan dalam statistika yang menggambarkan nilai pengamatan yang terletak di tengah-tengah saat data sudah diurutkan. Untuk menghitung median, data harus diurutkan terlebih dahulu dari yang terkecil hingga yang terbesar atau sebaliknya.

Jika jumlah pengamatan (n) ganjil, maka median akan menjadi nilai pengamatan di tengah-tengah, di mana setengah pengamatan berada di bawahnya dan setengahnya lagi di atasnya. Namun, jika jumlah pengamatan (n) genap, median akan merupakan rata-rata dari dua nilai pengamatan yang berada di tengah.

Rumus median untuk data ganjil dan data genap sebagai berikut:

Minimum

Nilai minimum merupakan nilai terkecil dalam kumpulan data. Untuk mencari nilai minimum, perlu untuk menyusun data dalam urutan menaik (dari yang terkecil hingga yang terbesar) dan mengidentifikasi nilai yang paling rendah. Dalam statistika deskriptif, nilai minimum memberikan informasi tentang titik terendah dalam kumpulan data. Hal ini dapat membantu untuk memahami rentang nilai yang ada dan memberikan gambaran awal tentang sebaran data tersebut.

Maksimum

Nilai maksimum merupakan nilai terbesar dalam kumpulan data. Untuk mencari nilai maksimum, perlu untuk menyusun data dalam urutan menurun (dari yang terbesar hingga yang terkecil) dan mengidentifikasi nilai yang paling tinggi. Dalam statistika deskriptif, nilai maksimum memberikan informasi tentang titik tertinggi dalam kumpulan data. Hal ini dapat membantu untuk memahami rentang nilai yang ada dan memberikan gambaran awal tentang sebaran data tersebut.

Kuartil

Kuartil atau perempatan adalah nilai-nilai yang membagi data ke dalam empat bagian sama besar. Terdapat tiga kuartil yang umum digunakan dalam statistika deskriptif, yaitu kuartil pertama (Q1), kuartil kedua (Q2), dan kuartil ketiga (Q3). Kuartil kedua juga sering disebut sebagai median.

Untuk menghitung kuartil, Anda perlu mengurutkan data dalam urutan menaik dan kemudian mencari nilai yang berada pada posisi tertentu berdasarkan rumus yang telah disebutkan.

Berikut adalah rumus yang digunakan untuk menghitung kuartil:

Q1 (Kuartil Pertama): Nilai pada posisi ke (1/4) × n

Q2 (Kuartil Kedua atau Median): Nilai pada posisi ke (1/2) × n

Q3 (Kuartil Ketiga): Nilai pada posisi ke (3/4) × n

dimana n = jumlah pengamatan dalam data

Range

Range mengacu pada selisih antara nilai maksimum dan nilai minimum dalam kumpulan data. Range memberikan informasi tentang sebaran data dan dapat digunakan sebagai ukuran sederhana untuk mengukur rentang nilai yang tercakup dalam data tersebut. Untuk menghitung range, Anda perlu mengurutkan data dalam urutan menaik dan kemudian mengambil selisih antara nilai maksimum dan nilai minimum.

Kejelekan dari range adalah tidak mempertimbangkan semua informasi yang mungkin antara nilai terendah dan tertinggi dalam data tersebut.

Ragam Ukuran penyebaran terpenting dalam setiap pengujian statistik parametrik adalah ragam atau varians yang memiliki simbol \(\sigma^2\) untuk populasi dan \(\S^2\) untuk sampel.

Hasil perhitungan ragam adalah nilai kuadrat, yang berarti unitnya adalah unit data yang telah dipangkatkan dua. Untuk mendapatkan ukuran dispersi yang serupa dengan data asli, akar kuadrat dari ragam dapat dihitung, dan hasilnya disebut simpangan baku (standar deviasi).

Ragam memberikan informasi tentang sebaran data secara lebih komprehensif daripada range. Semakin besar ragam, semakin besar variabilitas data, sementara ragam yang lebih kecil menunjukkan bahwa data cenderung lebih terkonsentrasi di sekitar nilai rata-rata.

Berikut merupakan rumus ragam untuk populasi dan sampel:

2.2 Analisis Regresi Logistik

Regresi logistik adalah metode statistika yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen (variabel prediktor) dengan variabel dependen biner (variabel target) yang memiliki dua kategori atau hasil yang mungkin. Dalam regresi logistik, variabel dependen umumnya diinterpretasikan sebagai probabilitas atau peluang kejadian sukses dalam kategori yang ditentukan.

Regresi logistik menggunakan fungsi logistik atau sigmoid untuk memodelkan hubungan antara variabel prediktor dan peluang kejadian sukses. Fungsi logistik menghasilkan nilai antara 0 dan 1, yang dapat diinterpretasikan sebagai probabilitas kejadian sukses. Regresi logistik memperkirakan koefisien regresi untuk setiap variabel prediktor yang memberikan kontribusi terhadap log-odds (logaritma peluang sukses dibagi dengan peluang kegagalan) dari variabel dependen.

Beberapa konsep yang relevan dalam regresi logistik meliputi:

  1. Variabel dependen biner: Variabel dependen dalam regresi logistik adalah variabel biner yang menggambarkan hasil atau kategori yang mungkin. Misalnya, bisa berupa variabel yang menunjukkan apakah seseorang mengalami suatu kejadian atau tidak.

  2. Koefisien regresi: Koefisien regresi dalam regresi logistik mengindikasikan pengaruh variabel prediktor terhadap peluang kejadian sukses. Koefisien positif menunjukkan hubungan positif, sedangkan koefisien negatif menunjukkan hubungan negatif.

  3. Odds ratio: Odds ratio menggambarkan perubahan dalam peluang kejadian sukses sebagai hasil dari perubahan satu unit dalam variabel prediktor. Odds ratio yang lebih besar dari 1 menunjukkan peningkatan peluang, sementara yang lebih kecil dari 1 menunjukkan penurunan peluang.

  4. Evaluasi model: Dalam regresi logistik, terdapat berbagai metode untuk mengevaluasi kualitas model, seperti akurasi, presisi, recall, dan area di bawah kurva ROC (AUC-ROC).

Multiple Logistic Regression atau Regresi logistik ganda memiliki model regresi logistik yang lebih dari 1 prediktor, yang dinyatakan sebagai:

3 SOURCE CODE

3.1 Library

> #library(readr)
> #library(generalhoslem)
> #library(pscl)

3.2 Data

> data<-read.csv('C:/Users/satri/Downloads/diabetes.csv')
> data
    Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
1             6     148            72            35       0 33.6
2             1      85            66            29       0 26.6
3             8     183            64             0       0 23.3
4             1      89            66            23      94 28.1
5             0     137            40            35     168 43.1
6             5     116            74             0       0 25.6
7             3      78            50            32      88 31.0
8            10     115             0             0       0 35.3
9             2     197            70            45     543 30.5
10            8     125            96             0       0  0.0
11            4     110            92             0       0 37.6
12           10     168            74             0       0 38.0
13           10     139            80             0       0 27.1
14            1     189            60            23     846 30.1
15            5     166            72            19     175 25.8
16            7     100             0             0       0 30.0
17            0     118            84            47     230 45.8
18            7     107            74             0       0 29.6
19            1     103            30            38      83 43.3
20            1     115            70            30      96 34.6
21            3     126            88            41     235 39.3
22            8      99            84             0       0 35.4
23            7     196            90             0       0 39.8
24            9     119            80            35       0 29.0
25           11     143            94            33     146 36.6
26           10     125            70            26     115 31.1
27            7     147            76             0       0 39.4
28            1      97            66            15     140 23.2
29           13     145            82            19     110 22.2
30            5     117            92             0       0 34.1
31            5     109            75            26       0 36.0
32            3     158            76            36     245 31.6
33            3      88            58            11      54 24.8
34            6      92            92             0       0 19.9
35           10     122            78            31       0 27.6
36            4     103            60            33     192 24.0
37           11     138            76             0       0 33.2
38            9     102            76            37       0 32.9
39            2      90            68            42       0 38.2
40            4     111            72            47     207 37.1
41            3     180            64            25      70 34.0
42            7     133            84             0       0 40.2
43            7     106            92            18       0 22.7
44            9     171           110            24     240 45.4
45            7     159            64             0       0 27.4
46            0     180            66            39       0 42.0
47            1     146            56             0       0 29.7
48            2      71            70            27       0 28.0
49            7     103            66            32       0 39.1
50            7     105             0             0       0  0.0
51            1     103            80            11      82 19.4
52            1     101            50            15      36 24.2
53            5      88            66            21      23 24.4
54            8     176            90            34     300 33.7
55            7     150            66            42     342 34.7
56            1      73            50            10       0 23.0
57            7     187            68            39     304 37.7
58            0     100            88            60     110 46.8
59            0     146            82             0       0 40.5
60            0     105            64            41     142 41.5
61            2      84             0             0       0  0.0
62            8     133            72             0       0 32.9
63            5      44            62             0       0 25.0
64            2     141            58            34     128 25.4
65            7     114            66             0       0 32.8
66            5      99            74            27       0 29.0
67            0     109            88            30       0 32.5
68            2     109            92             0       0 42.7
69            1      95            66            13      38 19.6
70            4     146            85            27     100 28.9
71            2     100            66            20      90 32.9
72            5     139            64            35     140 28.6
73           13     126            90             0       0 43.4
74            4     129            86            20     270 35.1
75            1      79            75            30       0 32.0
76            1       0            48            20       0 24.7
77            7      62            78             0       0 32.6
78            5      95            72            33       0 37.7
79            0     131             0             0       0 43.2
80            2     112            66            22       0 25.0
81            3     113            44            13       0 22.4
82            2      74             0             0       0  0.0
83            7      83            78            26      71 29.3
84            0     101            65            28       0 24.6
85            5     137           108             0       0 48.8
86            2     110            74            29     125 32.4
87           13     106            72            54       0 36.6
88            2     100            68            25      71 38.5
89           15     136            70            32     110 37.1
90            1     107            68            19       0 26.5
91            1      80            55             0       0 19.1
92            4     123            80            15     176 32.0
93            7      81            78            40      48 46.7
94            4     134            72             0       0 23.8
95            2     142            82            18      64 24.7
96            6     144            72            27     228 33.9
97            2      92            62            28       0 31.6
98            1      71            48            18      76 20.4
99            6      93            50            30      64 28.7
100           1     122            90            51     220 49.7
    DiabetesPedigreeFunction Age Outcome
1                      0.627  50       1
2                      0.351  31       0
3                      0.672  32       1
4                      0.167  21       0
5                      2.288  33       1
6                      0.201  30       0
7                      0.248  26       1
8                      0.134  29       0
9                      0.158  53       1
10                     0.232  54       1
11                     0.191  30       0
12                     0.537  34       1
13                     1.441  57       0
14                     0.398  59       1
15                     0.587  51       1
16                     0.484  32       1
17                     0.551  31       1
18                     0.254  31       1
19                     0.183  33       0
20                     0.529  32       1
21                     0.704  27       0
22                     0.388  50       0
23                     0.451  41       1
24                     0.263  29       1
25                     0.254  51       1
26                     0.205  41       1
27                     0.257  43       1
28                     0.487  22       0
29                     0.245  57       0
30                     0.337  38       0
31                     0.546  60       0
32                     0.851  28       1
33                     0.267  22       0
34                     0.188  28       0
35                     0.512  45       0
36                     0.966  33       0
37                     0.420  35       0
38                     0.665  46       1
39                     0.503  27       1
40                     1.390  56       1
41                     0.271  26       0
42                     0.696  37       0
43                     0.235  48       0
44                     0.721  54       1
45                     0.294  40       0
46                     1.893  25       1
47                     0.564  29       0
48                     0.586  22       0
49                     0.344  31       1
50                     0.305  24       0
51                     0.491  22       0
52                     0.526  26       0
53                     0.342  30       0
54                     0.467  58       1
55                     0.718  42       0
56                     0.248  21       0
57                     0.254  41       1
58                     0.962  31       0
59                     1.781  44       0
60                     0.173  22       0
61                     0.304  21       0
62                     0.270  39       1
63                     0.587  36       0
64                     0.699  24       0
65                     0.258  42       1
66                     0.203  32       0
67                     0.855  38       1
68                     0.845  54       0
69                     0.334  25       0
70                     0.189  27       0
71                     0.867  28       1
72                     0.411  26       0
73                     0.583  42       1
74                     0.231  23       0
75                     0.396  22       0
76                     0.140  22       0
77                     0.391  41       0
78                     0.370  27       0
79                     0.270  26       1
80                     0.307  24       0
81                     0.140  22       0
82                     0.102  22       0
83                     0.767  36       0
84                     0.237  22       0
85                     0.227  37       1
86                     0.698  27       0
87                     0.178  45       0
88                     0.324  26       0
89                     0.153  43       1
90                     0.165  24       0
91                     0.258  21       0
92                     0.443  34       0
93                     0.261  42       0
94                     0.277  60       1
95                     0.761  21       0
96                     0.255  40       0
97                     0.130  24       0
98                     0.323  22       0
99                     0.356  23       0
100                    0.325  31       1
> 
> Y<-as.factor(data$Outcome)
> X1<-data$Glucose
> X2<-data$BloodPressure
> X3<-data$BMI
> X4<-data$DiabetesPedigreeFunction
> 
> 
> # Membentuk data frame
> data_diabetes<-data.frame(X1,X2,X3,X4,Y)
> str(data_diabetes)
'data.frame':   100 obs. of  5 variables:
 $ X1: int  148 85 183 89 137 116 78 115 197 125 ...
 $ X2: int  72 66 64 66 40 74 50 0 70 96 ...
 $ X3: num  33.6 26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 ...
 $ X4: num  0.627 0.351 0.672 0.167 2.288 ...
 $ Y : Factor w/ 2 levels "0","1": 2 1 2 1 2 1 2 1 2 2 ...

3.3 Plot

Pie Chart

> #YES<-sum(data_diabetes$Y == 1)
> #NO<-sum(data_diabetes$Y == 0)
> #slices<-c(YES,NO)
> #lbls<-c("Teridentifikasi","Tidak Teridentifikasi")
> #lbls<-paste(lbls,slices)
> #lbls<-paste(lbls)
> #pie(slices, labels=lbls, col=rainbow(length(lbls)),main = "Pie Chart of Diabetes")

4 Hasil dan Pembahasan

4.1 Statistika Deskriptif

Dalam kasus diabetes kali ini, menggunakan beberapa perhitungan statistika deskriptif, diantaranya minimum, maksimum, median, mean, kuantil 1, kuantil 2, dan histogram

> summary(data_diabetes)
       X1              X2               X3              X4         Y     
 Min.   :  0.0   Min.   :  0.00   Min.   : 0.00   Min.   :0.1020   0:63  
 1st Qu.: 99.0   1st Qu.: 64.00   1st Qu.:25.30   1st Qu.:0.2480   1:37  
 Median :112.5   Median : 72.00   Median :31.80   Median :0.3430         
 Mean   :117.9   Mean   : 68.07   Mean   :31.00   Mean   :0.4689         
 3rd Qu.:139.0   3rd Qu.: 80.00   3rd Qu.:37.23   3rd Qu.:0.5837         
 Max.   :197.0   Max.   :110.00   Max.   :49.70   Max.   :2.2880         

Berdasarkan output di atas, diperoleh nilai:

  1. Minimum

    X1 = 0, X2 = 0, X3 = 0, X4 = 0.102, Y = 0

  2. Kuartil 1

    X1 = 99, X2 = 64, X3 = 25.3, X4 = 0.248

  3. Median

    X1 = 112.5, X2 = 72, X3 = 31.8, X4 = 0.3430

  4. Rata-Rata

    X1 = 117.9, X2 = 68.07, X3 = 31, X4 = 0.4689

  5. Kuartil 3

    X1 = 139, X2 = 80, X3 = 37.23, X4 = 0.5837

  6. Maksimum

    X1 = 197, X2 = 110, X3 = 49.7, X4 = 2.2880

Ragam

> var(data_diabetes$X1)
[1] 1136.542

Berdasarkan output di atas didapatkan ragam pada variabel X1 sebesar 1136.542

> var(data_diabetes$X2)
[1] 484.4092

Berdasarkan output di atas didapatkan ragam pada variabel X2 sebesar 484.4092

> var(data_diabetes$X3)
[1] 92.38544

Berdasarkan output di atas didapatkan ragam pada variabel X3 sebesar 92.38544

> var(data_diabetes$X4)
[1] 0.1377673

Berdasarkan output di atas didapatkan ragam pada variabel X4 sebesar 0.1377673

Pie Chart

> YES<-sum(data_diabetes$Y == 1)
> NO<-sum(data_diabetes$Y == 0)
> slices<-c(YES,NO)
> lbls<-c("Teridentifikasi","Tidak Teridentifikasi")
> lbls<-paste(lbls,slices)
> lbls<-paste(lbls)
> pie(slices, labels=lbls, col=rainbow(length(lbls)),main = "Pie Chart of Diabetes")

Dari pie chart di atas diketahui bahwa orang yang terindikasi diabetes sebanyak 37 orang dan yang tidak terindikasi diabetes sebanyak 63 orang

4.2 Asumsi Nonmultikolinieritas

> reg1<-lm(X1~X2+X3+X4, data=data_diabetes)
> summary(reg1)

Call:
lm(formula = X1 ~ X2 + X3 + X4, data = data_diabetes)

Residuals:
     Min       1Q   Median       3Q      Max 
-104.192  -20.229   -5.729   20.517   83.257 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  75.1762    12.6491   5.943 4.49e-08 ***
X2            0.2750     0.1596   1.723   0.0882 .  
X3            0.5592     0.3762   1.487   0.1404    
X4           14.3138     8.9807   1.594   0.1143    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 32.03 on 96 degrees of freedom
Multiple R-squared:  0.1246,    Adjusted R-squared:  0.09729 
F-statistic: 4.556 on 3 and 96 DF,  p-value: 0.004984
> R2_1<-1/(1-0.1246)
> R2_1
[1] 1.142335

Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel Glucose (X1) dengan variabel prediktor lainnya

> reg2<-lm(X2~X1+X3+X4, data = data_diabetes)
> summary(reg2)

Call:
lm(formula = X2 ~ X1 + X3 + X4, data = data_diabetes)

Residuals:
    Min      1Q  Median      3Q     Max 
-79.799  -5.539   3.223  10.332  52.440 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  30.2089     8.7915   3.436 0.000874 ***
X1            0.1090     0.0633   1.723 0.088169 .  
X3            0.8248     0.2243   3.677 0.000390 ***
X4           -1.2044     5.7285  -0.210 0.833919    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 20.17 on 96 degrees of freedom
Multiple R-squared:  0.1855,    Adjusted R-squared:  0.1601 
F-statistic: 7.289 on 3 and 96 DF,  p-value: 0.0001867
> R2_2<-1/(1-0.1855)
> R2_2
[1] 1.227747

Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel BloodPressure (X2) dengan variabel prediktor lainnya

> reg3<-lm(X3~X1+X2+X4,data = data_diabetes)
> summary(reg3)

Call:
lm(formula = X3 ~ X1 + X2 + X4, data = data_diabetes)

Residuals:
    Min      1Q  Median      3Q     Max 
-34.288  -4.090   0.142   4.353  22.849 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.74491    3.71222   3.703 0.000356 ***
X1           0.04024    0.02707   1.487 0.140395    
X2           0.14965    0.04070   3.677 0.000390 ***
X4           4.94477    2.38791   2.071 0.041066 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.592 on 96 degrees of freedom
Multiple R-squared:  0.2251,    Adjusted R-squared:  0.2009 
F-statistic: 9.298 on 3 and 96 DF,  p-value: 1.861e-05
> R2_3<-1/(1-0.2251)
> R2_3
[1] 1.290489

Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel BMI (X3) dengan variabel prediktor lainnya

> reg4<-lm(X4~X1+X2+X3, data = data_diabetes)
> summary(reg4)

Call:
lm(formula = X4 ~ X1 + X2 + X3, data = data_diabetes)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.44829 -0.22156 -0.07322  0.12341  1.66935 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.0145088  0.1659434   0.087   0.9305  
X1           0.0018010  0.0011300   1.594   0.1143  
X2          -0.0003821  0.0018176  -0.210   0.8339  
X3           0.0086469  0.0041757   2.071   0.0411 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3593 on 96 degrees of freedom
Multiple R-squared:  0.09136,   Adjusted R-squared:  0.06296 
F-statistic: 3.217 on 3 and 96 DF,  p-value: 0.02621
> R2_4<-1/(1-0.09136)
> R2_4
[1] 1.100546

Dapat dilihat dari nilai VIF yang mendekati 1, maka tidak terjadi multikolinieritas antara variabel DiabetesPedigreeFunction (X4) dengan variabel prediktor lainnya

4.3 Analisis Regresi Logistik

4.3.1 Pendugaan parameter

> reglog<-glm(Y~X1+X2+X3+X4, family = binomial, data = data_diabetes)
> summary(reglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8256  -0.8745  -0.4772   0.8629   2.3813  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -6.332102   1.575505  -4.019 5.84e-05 ***
X1           0.032013   0.008988   3.562 0.000369 ***
X2          -0.004883   0.012446  -0.392 0.694802    
X3           0.067962   0.032368   2.100 0.035756 *  
X4           0.105919   0.655359   0.162 0.871606    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 131.79  on 99  degrees of freedom
Residual deviance: 104.41  on 95  degrees of freedom
AIC: 114.41

Number of Fisher Scoring iterations: 5

Berdasarkan hasil output di atas, diperoleh persamaan regresi logistik untuk pemasalahan ini yaitu

Interpretasi:

  • Intersept = -6.332102, maka apabila variabel prediktor konstan Yduga akan turun sebesar 6.33102 satuan

  • \(\beta1\) = 0.032013, maka apabila variabel lain konstan Yduga akan naik sebesar 0.032013X1 satuan

  • \(\beta2\) = -0.004883, maka apabila variabel lain konstan Yduga akan turun sebesar 0.004883X2 satuan

  • \(\beta3\) = 0.067962, maka apabila variabel lain konstat Yduga akan naik sebesar 0.067962X3 satuan

  • \(\beta4\) = 0.105919, maka apabila variabel lain konstan Yduga akan naik sebesar 0.105919X4 satuan

4.3.2 Uji Signifikansi Keseluruhan Model

> pR2(reglog)
Error in pR2(reglog): could not find function "pR2"
> qchisq(0.95,3)
[1] 7.814728

Berdasarkan output di atas terlihat bahwa nilai G2 sebesar 27.3780646 dan nilai \(X^2(0.05;3) = 7.814728\).

Keputusan : G2 > \(X^2\), maka tolak H0

Kesimpulan : Dengan taraf nyata 5% secara simultan disimpulkan bahwa Glucose, BloodPressure, BMI, dan DiabetesPedigreeFunction berpengaruh signifikan terhadap hasil diabetes

4.3.3 Uji Parsial Parameter Model

> summary(reglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8256  -0.8745  -0.4772   0.8629   2.3813  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -6.332102   1.575505  -4.019 5.84e-05 ***
X1           0.032013   0.008988   3.562 0.000369 ***
X2          -0.004883   0.012446  -0.392 0.694802    
X3           0.067962   0.032368   2.100 0.035756 *  
X4           0.105919   0.655359   0.162 0.871606    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 131.79  on 99  degrees of freedom
Residual deviance: 104.41  on 95  degrees of freedom
AIC: 114.41

Number of Fisher Scoring iterations: 5

Berdasarkan output di atas, dapat dilihat p-value pada masing-masing variabel prediktor.

Keputusan :

Untuk \(\beta1\) p-value = 0.000369 < \(\alpha\) = 0.05, maka tolak H0

Untuk \(\beta2\) p-value = 0.694802 > \(\alpha\) = 0.05, maka terima H0

Untuk \(\beta3\) p-value = 0.035756 < \(\alpha\) = 0.05, maka tolak H0

Untuk \(\beta4\) p-value = 0.871606 > \(\alpha\) = 0.05, maka terima H0

Kesimpulan : Dengan taraf nyata 5% secara parsial dapat disimpulkan bahwa variabel Glucose dan BMI berpengaruh signifikan terhadap hasil diabetes, sedangkan BloodPressure dan DiabetesPedigreeFunction tidak berpengaruh signifikan terhadap hasil diabetes

4.3.4 R-Square

> summary(reglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = data_diabetes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8256  -0.8745  -0.4772   0.8629   2.3813  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -6.332102   1.575505  -4.019 5.84e-05 ***
X1           0.032013   0.008988   3.562 0.000369 ***
X2          -0.004883   0.012446  -0.392 0.694802    
X3           0.067962   0.032368   2.100 0.035756 *  
X4           0.105919   0.655359   0.162 0.871606    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 131.79  on 99  degrees of freedom
Residual deviance: 104.41  on 95  degrees of freedom
AIC: 114.41

Number of Fisher Scoring iterations: 5
> R_square<-1-(104.41/131.79)
> R_square
[1] 0.2077548

Berdasarkan output di atas dapat disimpulkan bahwa keempat variabel prediktor hanya mampu menjelaskan 20.77548% terhadap hasil diabetes, sedangkan 79.22452% variabel di luar model.

4.3.5 Odds Ratio

> beta<-(coef(reglog))
> beta
 (Intercept)           X1           X2           X3           X4 
-6.332101758  0.032012859 -0.004883137  0.067962364  0.105918839 
> OR_beta<-exp(beta)
> OR_beta
(Intercept)          X1          X2          X3          X4 
0.001778292 1.032530782 0.995128767 1.070325025 1.111731643 
> cbind(beta,OR_beta)
                    beta     OR_beta
(Intercept) -6.332101758 0.001778292
X1           0.032012859 1.032530782
X2          -0.004883137 0.995128767
X3           0.067962364 1.070325025
X4           0.105918839 1.111731643

Berdasarkan output di atas dapat disimpulkan bahwa:

  • Variabel Glucose (X1) memiliki odds ratio sebesar 1.032530782 yang berarti diabetes meningkat 1.0325 kali pada setiap peningkatan satu unit glucose.

  • Variabel BloodPressure (X2) memiliki odds ratio sebesar 0.995128767 yang berarti diabetes meningkat 0.995 kali pada setiap peningkatan satu unit 0.995128767

  • Variabel BMI (X3) memiliki odds ratio sebesar 1.070325025 yang berarti diabetes meningkat 1.07 kali pada setiap peningkatan satu unit BMI

  • Variabel DiabetesPedigreeFunction (X4) memiliki odds ratio sebesar 1.111731643 yang berarti diabetes meningkat 1.11 kali pada setiap peningkatan satu unitDiabetesPedigreeFunction

4.3.6 Membentuk klasifikasi

> yp_hat<-fitted(reglog)
> data_diabetes$yp_hat<-yp_hat
> data_diabetes
     X1  X2   X3    X4 Y      yp_hat
1   148  72 33.6 0.627 1 0.599687220
2    85  66 26.6 0.351 0 0.110237309
3   183  64 23.3 0.672 1 0.704419152
4    89  66 28.1 0.167 0 0.132640224
5   137  40 43.1 2.288 1 0.736887707
6   116  74 25.6 0.201 0 0.228141348
7    78  50 31.0 0.248 1 0.124973282
8   115   0 35.3 0.134 0 0.440937423
9   197  70 30.5 0.158 1 0.848411879
10  125  96  0.0 0.232 1 0.058706620
11  110  92 37.6 0.191 0 0.335297699
12  168  74 38.0 0.537 1 0.789872099
13  139  80 27.1 1.441 0 0.430807773
14  189  60 30.1 0.398 1 0.819529517
15  166  72 25.8 0.587 1 0.609699746
16  100   0 30.0 0.484 1 0.261018759
17  118  84 45.8 0.551 1 0.551385349
18  107  74 29.6 0.254 1 0.226270940
19  103  30 43.3 0.183 0 0.445438652
20  115  70 34.6 0.529 1 0.357802734
21  126  88 39.3 0.704 0 0.504322438
22   99  84 35.4 0.388 0 0.244891161
23  196  90 39.8 0.451 1 0.905133150
24  119  80 29.0 0.263 1 0.286088604
25  143  94 36.6 0.254 1 0.574698713
26  125  70 31.1 0.205 1 0.368892461
27  147  76 39.4 0.257 1 0.669872481
28   97  66 23.2 0.487 0 0.127768798
29  145  82 22.2 0.245 0 0.364487417
30  117  92 34.1 0.337 0 0.335673542
31  109  75 36.0 0.546 0 0.330824438
32  158  76 31.6 0.851 1 0.643952120
33   88  58 24.8 0.267 0 0.110617887
34   92  92 19.9 0.188 0 0.078434965
35  122  78 27.6 0.512 0 0.293711466
36  103  60 24.0 0.966 0 0.168772597
37  138  76 33.2 0.420 0 0.503847612
38  102  76 32.9 0.665 1 0.243882405
39   90  68 38.2 0.503 1 0.243505031
40  111  72 37.1 1.390 1 0.386599359
41  180  64 34.0 0.271 0 0.811091245
42  133  84 40.2 0.696 0 0.579624353
43  106  92 22.7 0.235 0 0.139391795
44  171 110 45.4 0.721 1 0.854060622
45  159  64 27.4 0.294 0 0.583882219
46  180  66 42.0 1.893 1 0.896863418
47  146  56 29.7 0.564 0 0.536569679
48   71  70 28.0 0.586 0 0.080468854
49  103  66 39.1 0.344 1 0.339998744
50  105   0  0.0 0.305 0 0.050285418
51  103  80 19.4 0.491 0 0.113552941
52  101  50 24.2 0.526 0 0.162117384
53   88  66 24.4 0.342 0 0.105010533
54  176  90 33.7 0.467 1 0.768964750
55  150  66 34.7 0.718 0 0.641500749
56   73  50 23.0 0.248 0 0.065994085
57  187  68 37.7 0.254 1 0.871168945
58  100  88 46.8 0.962 0 0.430944331
59  146  82 40.5 1.781 0 0.707334964
60  105  64 41.5 0.173 0 0.390666788
61   84   0  0.0 0.304 0 0.026318239
62  133  72 32.9 0.270 1 0.459733012
63   44  62 25.0 0.587 0 0.030322987
64  141  58 25.4 0.699 0 0.425256998
65  114  66 32.8 0.258 1 0.321163430
66   99  74 29.0 0.203 0 0.177734748
67  109  88 32.5 0.855 1 0.274267269
68  109  92 42.7 0.845 0 0.425446414
69   95  66 19.6 0.334 0 0.095718599
70  146  85 28.9 0.189 0 0.477724748
71  100  66 32.9 0.867 1 0.245027755
72  139  64 28.6 0.411 0 0.448290818
73  126  90 43.4 0.583 1 0.567915980
74  129  86 35.1 0.231 0 0.447087235
75   79  75 32.0 0.396 0 0.124272128
76    0  48 24.7 0.140 0 0.007592346
77   62  78 32.6 0.391 0 0.077901860
78   95  72 37.7 0.370 0 0.260938783
79  131   0 43.2 0.270 1 0.695541298
80  112  66 25.0 0.307 0 0.207942495
81  113  44 22.4 0.140 0 0.199037457
82   74   0  0.0 0.102 0 0.018847521
83   83  78 29.3 0.767 0 0.120958763
84  101  65 24.6 0.237 0 0.151970372
85  137 108 48.8 0.227 1 0.704097758
86  110  74 32.4 0.698 0 0.289846953
87  106  72 36.6 0.178 0 0.313447999
88  100  68 38.5 0.324 0 0.307464374
89  136  70 37.1 0.153 1 0.554146025
90  107  68 26.5 0.165 0 0.194614571
91   80  55 19.1 0.258 0 0.062138451
92  123  80 32.0 0.443 0 0.362748792
93   81  78 46.7 0.261 0 0.285272266
94  134  72 23.8 0.277 1 0.321448998
95  142  82 24.7 0.761 0 0.394742961
96  144  72 33.9 0.255 0 0.563922659
97   92  62 31.6 0.130 0 0.178243566
98   71  48 20.4 0.323 0 0.053507798
99   93  50 28.7 0.356 0 0.166472609
100 122  90 49.7 0.325 1 0.633239073
> class<-table(data_diabetes$Y,data_diabetes$yp_hat>0.5)
> class
   
    FALSE TRUE
  0    54    9
  1    16   21

Berdasarkan output di atas, didapatkan tabel class tersebut sebagai klasifikasi dari model

4.3.7 Uji Kelayakan Model

> generalhoslem::logitgof(data_diabetes$Y,fitted(reglog))

    Hosmer and Lemeshow test (binary model)

data:  data_diabetes$Y, fitted(reglog)
X-squared = 13.893, df = 8, p-value = 0.08459

Berdasarkan output di atas, dapat dilihat p-value = 0.08459

Keputusan = p-value>\(\alpha\) = 0.05, maka terima H0

Kesimpulan = Dengan taraf nyata 5% disimpulkan bahwa model layak digunakan

5 Kesimpulan

Berdasarkan pembahasan di atas ditarik kesimpulan bahwa keempat variabel yang diteliti secara serempak berpengaruh nyata terhadap adanya penyakit diabetes. Variabel tersebut adalah glucose, Blood Pressure, BMI, dan Diabetes Pedigree Function. Namun secara parsial, faktor yang menyebabkan adanya penyakit diabetes yaitu Glucose dan BMI, sedangkan BloodPressure dan DiabetesPedigreeFunction tidak termasuk faktor yang signifikan. Persamaan regresi logistik yang dihasilkan dapat digunakan untuk memprediksi probabilitas seseorang terkena penyakit diabetes atau tidak.

6 Daftar Pustaka

Sumber data : https://www.kaggle.com/code/yazidivan1/diabetes-prediction-using-logistic-regression/notebook

Kardika, Ida Bagus Wayan dan I Wayan Putu Sutirta Yasa. 2013. Preanalitik dan Interpretasi Glukosa Darah untuk Diagnosis Diabetes Melitus. (online)(https://www.academia.edu/9560607/PREANALITIK_DAN_INTERPRETASI_GLUKOSA_DARAH_UNTUK_DIAGNOSIS_DIABETES_MELITUS_PREANALITIC_AND_INTERPRETATION_BLOOD_GLUCOSE_FOR_DIAGNOSE_DIABETIC_MELITUS)

Harlan, Johan. 2018. Analisis Regresi Logistik. Depok: Gunadarma

Yitnosumarto, Suntoyo. 1994. Dasar-dasar Statistika Dengan Penekanan Terapan dalam Bidang Agrokompleks Teknologi dan Sosial. Jakarta: PT RajaGrafindo Persada