1 PENDAHULUAN
1.1 Latar Belakang
Regresi Logistik adalah suatu metode analisis statistika untuk mendeskripsikan hubungan antara variabel terikat yang memiliki dua kategori atau lebih dengan satu atau lebih peubah bebas berskala kategori atau kontinu. Metode ini sangat berguna dalam analisis prediktif dan pemodelan di berbagai bidang seperti ilmu sosial, kedokteran, ekonomi, dan ilmu data.
Dalam regresi logistik, variabel dependen (juga dikenal sebagai variabel respons atau variabel target) adalah variabel biner yang mewakili dua kemungkinan hasil atau kategori. Misalnya, variabel dependen dapat mewakili “sukses” atau “gagal”, “hidup” atau “mati”, atau “ya” atau “tidak”. Tujuan dari regresi logistik adalah untuk memahami dan memodelkan probabilitas atau peluang kejadian satu kategori dibandingkan dengan kategori yang lain, berdasarkan variabel independen yang ada.
2 TINJAUAN PUSTAKA
2.1 Regresi Logistik
Regresi logistik merupakan pengembangan dari regresi linier yang disesuaikan untuk variabel dependen biner. Dalam regresi logistik, variabel dependen tidak dapat dimodelkan secara langsung menggunakan persamaan linier seperti dalam regresi linier. Model regresi logistik biner digunakan untuk menganalisis hubungan antara satu variabel respon dan beberapa variabel prediktor, dengan variabel responnya berupa data kualitatif dikotomi yaitu bernilai 1 untuk menyatakan keberadaan sebuah karakteristik dan bernilai 0 untuk menyatakan ketidakberadaan sebuah karakteristik. Model regresi logistik biner digunakan jika variabel responnya menghasilkan dua kategori bernilai 0 dan 1.
2.2 Asumsi Multikolinieritas
Pemeriksaan multikolinieritas dilakukan untuk melihat adanya korelasi atau hubungan antara dua variabel bebas. Pengujian Multikolinieritas bisa menggunakan nilai variance inflation factor (VIF). Asumsi multikolinieritas terpenuhi apabila nilai VIF < 10.
2.3 Uji Signifikansi Keseluruhan Model
Pengujian regresi logistik secara serentak dilakukan untuk mengetahui apakah model telah signifikan.
2.4 Uji Kelayakan Model
Uji kelayakan model digunakan untuk mengetahui apakah model regresi yang telah didapat bisa merepresentasikan data pengamatan. Kelayakan model pada uji regresi logistic atau Goodness of Fit dapat dilihat pada table Hosmer and Lemeshow Test.
Hipotesis yang dipakai adalah sebagai berikut.
H0 : Model layak
H1 : Model tidak layak
Keputusannya adalah sebagai berikut
Terima H0 jika nilai Sig. > 0.05 maka dapat disimpulkan bahwa model regresi layak.
Tolak H0 jika nilai Sig. < 0.05 maka dapat disimpulkan bahwa model regresi tidak layak.
2.5 Uji Parsial Parameter Model
Uji parsial parameter model digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen.
3 SOURCE CODE
Berikut ini merupakan tahapan melakukan analisis regresi logistik di Rstudio:
3.1 Library
> library(readr)
> library(generalhoslem)
> library(pscl)
> library(car)3.2 Input Data
Selanjutnya, kita dapat memuat data ke dalam Rstudio dengan perintah berikut.
> #Mengimport data
> datareglog <-read.csv("C:/Users/Bila/Downloads/survey lung cancer.csv")
> str(datareglog)
'data.frame': 309 obs. of 16 variables:
$ GENDER : chr "M" "M" "F" "M" ...
$ AGE : int 69 74 59 63 63 75 52 51 68 53 ...
$ SMOKING : int 1 2 1 2 1 1 2 2 2 2 ...
$ YELLOW_FINGERS : int 2 1 1 2 2 2 1 2 1 2 ...
$ ANXIETY : int 2 1 1 2 1 1 1 2 2 2 ...
$ PEER_PRESSURE : int 1 1 2 1 1 1 1 2 1 2 ...
$ CHRONIC_DISEASE : int 1 2 1 1 1 2 1 1 1 2 ...
$ FATIGUE : int 2 2 2 1 1 2 2 2 2 1 ...
$ ALLERGY : int 1 2 1 1 1 2 1 2 1 2 ...
$ WHEEZING : int 2 1 2 1 2 2 2 1 1 1 ...
$ ALCOHOL_CONSUMING : int 2 1 1 2 1 1 2 1 1 2 ...
$ COUGHING : int 2 1 2 1 2 2 2 1 1 1 ...
$ SHORTNESS.OF.BREATH : int 2 2 2 1 2 2 2 2 1 1 ...
$ SWALLOWING.DIFFICULTY: int 2 2 1 2 1 1 1 2 1 2 ...
$ CHEST.PAIN : int 2 2 2 2 1 1 2 1 1 2 ...
$ LUNG_CANCER : chr "YES" "YES" "NO" "NO" ...
> Y <- as.factor(datareglog$LUNG_CANCER)
> X1 <- datareglog$AGE
> X2 <- as.factor(datareglog$SMOKING)
> X3 <- as.factor(datareglog$ALCOHOL_CONSUMING)
> str(Y)
Factor w/ 2 levels "NO","YES": 2 2 1 1 1 2 2 2 1 2 ...
>
> #Membentuk data frame
> data_logistik<-data.frame(X1,X2,X3,Y)
> str(data_logistik)
'data.frame': 309 obs. of 4 variables:
$ X1: int 69 74 59 63 63 75 52 51 68 53 ...
$ X2: Factor w/ 2 levels "1","2": 1 2 1 2 1 1 2 2 2 2 ...
$ X3: Factor w/ 2 levels "1","2": 2 1 1 2 1 1 2 1 1 2 ...
$ Y : Factor w/ 2 levels "NO","YES": 2 2 1 1 1 2 2 2 1 2 ...3.3 Memeriksa Asumsi Nonmultikolinieritas
> #reg1
> reg1 <- lm(X1~X2+X3, data=data_logistik)
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3, data = data_logistik)
Residuals:
Min 1Q Median 3Q Max
-40.579 -4.930 -0.485 6.070 24.070
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.9297 0.8943 70.364 <2e-16 ***
X22 -1.3502 0.9411 -1.435 0.152
X32 0.9050 0.9397 0.963 0.336
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 8.195 on 306 degrees of freedom
Multiple R-squared: 0.01014, Adjusted R-squared: 0.003667
F-statistic: 1.567 on 2 and 306 DF, p-value: 0.2104
>
> #reglog2
> reglog2 <- glm(X2~X1+X3, family = binomial, data =data_logistik)
> summary(reglog2)
Call:
glm(formula = X2 ~ X1 + X3, family = binomial, data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5610 -1.2577 0.9744 1.0739 1.2470
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.64775 0.91187 1.807 0.0708 .
X1 -0.02053 0.01433 -1.433 0.1520
X32 -0.18843 0.23259 -0.810 0.4179
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 423.43 on 308 degrees of freedom
Residual deviance: 420.55 on 306 degrees of freedom
AIC: 426.55
Number of Fisher Scoring iterations: 4
> pR2(reglog2)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-2.102744e+02 -2.117147e+02 2.880691e+00 6.803236e-03 9.279303e-03
r2CU
1.243916e-02
>
> #reglog3
> reglog3 <- glm(X3~X1+X2, family = binomial, data =data_logistik)
> summary(reglog3)
Call:
glm(formula = X3 ~ X1 + X2, family = binomial, data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.4699 -1.2541 0.9995 1.0814 1.2527
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.51834 0.91049 -0.569 0.569
X1 0.01361 0.01411 0.964 0.335
X22 -0.18763 0.23261 -0.807 0.420
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 424.39 on 308 degrees of freedom
Residual deviance: 422.66 on 306 degrees of freedom
AIC: 428.66
Number of Fisher Scoring iterations: 4
> pR2(reglog3)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-2.113320e+02 -2.121960e+02 1.727997e+00 4.071701e-03 5.576617e-03
r2CU
7.467701e-03 3.4 Analisa Regresi Logistik
> reglog<-glm(Y~X1+X2+X3,family=binomial,data=data_logistik)
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6939 0.2514 0.3068 0.6400 1.0697
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.77089 1.28889 -0.598 0.550
X1 0.02710 0.02034 1.332 0.183
X22 0.51823 0.36353 1.426 0.154
X32 1.98469 0.43889 4.522 6.12e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 234.3 on 308 degrees of freedom
Residual deviance: 203.9 on 305 degrees of freedom
AIC: 211.9
Number of Fisher Scoring iterations: 63.5 Uji Signifikansi Keseluruhan Model
> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-101.95126231 -117.14962143 30.39671825 0.12973460 0.09368763
r2CU
0.17626546
> qchisq(0.95,2)
[1] 5.9914653.6 Uji Parsial Parameter Model
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6939 0.2514 0.3068 0.6400 1.0697
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.77089 1.28889 -0.598 0.550
X1 0.02710 0.02034 1.332 0.183
X22 0.51823 0.36353 1.426 0.154
X32 1.98469 0.43889 4.522 6.12e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 234.3 on 308 degrees of freedom
Residual deviance: 203.9 on 305 degrees of freedom
AIC: 211.9
Number of Fisher Scoring iterations: 63.7 Memeriksa Asumsi Multikolinieritas
> vif(reglog)
X1 X2 X3
1.008422 1.013306 1.007631 3.8 R square
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_logistik)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6939 0.2514 0.3068 0.6400 1.0697
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.77089 1.28889 -0.598 0.550
X1 0.02710 0.02034 1.332 0.183
X22 0.51823 0.36353 1.426 0.154
X32 1.98469 0.43889 4.522 6.12e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 234.3 on 308 degrees of freedom
Residual deviance: 203.9 on 305 degrees of freedom
AIC: 211.9
Number of Fisher Scoring iterations: 6
> Rsq<-1-(203.9/234.3)3.9 Odds Ratio
> beta<-(coef(reglog))
> beta
(Intercept) X1 X22 X32
-0.77088844 0.02709587 0.51822806 1.98469092
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X22 X32
0.4626019 1.0274663 1.6790498 7.2767979
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -0.77088844 0.4626019
X1 0.02709587 1.0274663
X22 0.51822806 1.6790498
X32 1.98469092 7.27679793.10 Membentuk klasifikasi
> yp_hat<-fitted(reglog)
> data_logistik$yp_hat<-yp_hat
> data_logistik
X1 X2 X3 Y yp_hat
1 69 1 2 YES 0.9562035
2 74 2 1 YES 0.8522596
3 59 1 1 NO 0.6958828
4 63 2 2 NO 0.9689035
5 63 1 1 NO 0.7183216
6 75 1 1 YES 0.7792502
7 52 2 2 YES 0.9585533
8 51 2 1 YES 0.7556966
9 68 2 1 NO 0.8305963
10 53 2 2 YES 0.9596165
11 61 2 1 YES 0.8022137
12 72 1 2 YES 0.9594843
13 60 2 1 NO 0.7978793
14 58 2 2 YES 0.9645518
15 69 2 2 NO 0.9734456
16 48 1 1 YES 0.6294163
17 75 2 2 YES 0.9773397
18 57 2 2 YES 0.9636136
19 68 2 1 YES 0.8305963
20 61 1 1 NO 0.7072282
21 44 2 1 YES 0.7190104
22 64 1 1 YES 0.7237715
23 21 2 1 NO 0.5784352
24 60 2 2 YES 0.9663588
25 72 2 2 YES 0.9754679
26 65 1 2 YES 0.9514334
27 61 2 2 YES 0.9672286
28 69 1 1 NO 0.7500215
29 53 2 2 YES 0.9596165
30 55 1 2 NO 0.9372667
31 57 2 1 NO 0.7844524
32 62 2 2 YES 0.9680767
33 56 2 1 NO 0.7798356
34 67 2 1 YES 0.8267495
35 59 1 1 NO 0.6958828
36 59 2 1 YES 0.7934743
37 60 1 1 YES 0.7015865
38 56 1 1 NO 0.6784113
39 56 2 1 YES 0.7798356
40 60 2 2 YES 0.9663588
41 68 2 2 YES 0.9727361
42 63 1 2 YES 0.9488672
43 77 1 2 YES 0.9644351
44 52 2 2 YES 0.9585533
45 70 2 2 YES 0.9741371
46 72 2 2 YES 0.9754679
47 62 2 1 YES 0.8064777
48 64 2 2 YES 0.9697096
49 70 1 2 YES 0.9573243
50 60 1 2 NO 0.9447762
51 56 1 2 YES 0.9388411
52 63 2 1 YES 0.8106715
53 54 2 2 YES 0.9606535
54 49 2 2 YES 0.9552007
55 57 1 2 YES 0.9403786
56 52 1 2 YES 0.9323138
57 63 1 1 YES 0.7183216
58 73 1 2 YES 0.9605246
59 47 1 1 YES 0.6230743
60 69 2 2 YES 0.9734456
61 70 1 2 YES 0.9573243
62 60 1 1 NO 0.7015865
63 70 1 2 YES 0.9573243
64 68 1 2 YES 0.9550547
65 74 1 2 YES 0.9615392
66 71 2 1 YES 0.8417286
67 56 1 1 YES 0.6784113
68 66 2 2 YES 0.9712615
69 76 2 1 YES 0.8589536
70 78 2 1 YES 0.8653922
71 68 2 2 YES 0.9727361
72 66 2 1 YES 0.8228340
73 67 1 2 YES 0.9538771
74 60 2 1 YES 0.7978793
75 61 2 2 YES 0.9672286
76 58 2 2 YES 0.9645518
77 76 1 1 YES 0.7838759
78 56 2 2 YES 0.9626515
79 67 2 2 YES 0.9720082
80 73 2 1 YES 0.8488152
81 58 1 1 NO 0.6901182
82 54 2 1 YES 0.7703904
83 62 2 2 YES 0.9680767
84 81 1 2 YES 0.9679712
85 56 1 2 YES 0.9388411
86 60 1 2 YES 0.9447762
87 66 1 2 YES 0.9526703
88 62 1 1 YES 0.7128069
89 62 2 2 YES 0.9680767
90 55 2 2 YES 0.9616650
91 62 1 2 YES 0.9475364
92 71 1 1 YES 0.7600436
93 52 2 2 YES 0.9585533
94 59 1 2 YES 0.9433454
95 48 2 2 YES 0.9540268
96 60 1 1 YES 0.7015865
97 61 2 2 YES 0.9672286
98 59 2 2 YES 0.9654667
99 64 1 1 YES 0.7237715
100 56 2 2 YES 0.9626515
101 58 2 2 YES 0.9645518
102 81 1 1 YES 0.8059455
103 64 2 2 YES 0.9697096
104 62 2 2 YES 0.9680767
105 72 2 1 YES 0.8453051
106 60 1 1 YES 0.7015865
107 61 2 1 YES 0.8022137
108 60 2 2 YES 0.9663588
109 49 1 2 YES 0.9270004
110 53 1 2 YES 0.9340038
111 58 1 2 YES 0.9418797
112 61 2 2 YES 0.9672286
113 68 1 1 YES 0.7449069
114 60 2 2 YES 0.9663588
115 72 1 2 YES 0.9594843
116 72 1 1 YES 0.7649504
117 57 2 2 YES 0.9636136
118 51 2 1 YES 0.7556966
119 54 2 1 YES 0.7703904
120 56 1 2 YES 0.9388411
121 77 2 1 YES 0.8622045
122 64 1 2 YES 0.9501660
123 57 2 1 YES 0.7844524
124 66 2 2 YES 0.9712615
125 70 2 2 YES 0.9741371
126 53 1 1 YES 0.6604259
127 51 2 2 YES 0.9574633
128 58 2 2 YES 0.9645518
129 58 2 1 YES 0.7889987
130 63 1 1 NO 0.7183216
131 51 2 1 YES 0.7556966
132 61 1 1 YES 0.7072282
133 61 2 1 YES 0.8022137
134 76 2 2 YES 0.9779321
135 71 2 2 YES 0.9748110
136 69 1 2 YES 0.9562035
137 56 2 1 YES 0.7798356
138 67 1 1 YES 0.7397241
139 54 2 2 YES 0.9606535
140 63 1 2 YES 0.9488672
141 47 2 1 YES 0.7351373
142 62 2 2 YES 0.9680767
143 65 2 1 YES 0.8188494
144 63 2 1 YES 0.8106715
145 64 1 2 YES 0.9501660
146 65 2 1 YES 0.8188494
147 51 1 2 YES 0.9305838
148 56 1 2 YES 0.9388411
149 70 2 2 YES 0.9741371
150 58 2 2 YES 0.9645518
151 67 2 2 YES 0.9720082
152 62 1 2 YES 0.9475364
153 74 1 2 YES 0.9615392
154 69 2 1 NO 0.8343747
155 64 2 1 NO 0.8147953
156 75 2 1 YES 0.8556388
157 47 2 1 NO 0.7351373
158 57 2 1 NO 0.7844524
159 56 1 2 YES 0.9388411
160 68 1 2 NO 0.9550547
161 55 1 2 YES 0.9372667
162 62 2 1 YES 0.8064777
163 73 2 2 YES 0.9761080
164 68 2 2 YES 0.9727361
165 75 1 2 YES 0.9625289
166 63 1 2 YES 0.9488672
167 61 1 1 YES 0.7072282
168 62 1 2 YES 0.9475364
169 44 1 1 YES 0.6038015
170 56 2 2 YES 0.9626515
171 54 1 2 YES 0.9356545
172 57 1 1 NO 0.6842940
173 56 1 2 YES 0.9388411
174 69 1 2 YES 0.9562035
175 72 1 2 YES 0.9594843
176 59 2 1 YES 0.7934743
177 70 1 1 YES 0.7550672
178 64 2 2 YES 0.9697096
179 61 2 1 YES 0.8022137
180 72 2 1 YES 0.8453051
181 63 2 2 YES 0.9689035
182 74 2 1 YES 0.8522596
183 71 1 2 YES 0.9584177
184 71 2 1 NO 0.8417286
185 72 2 2 YES 0.9754679
186 77 2 2 YES 0.9785094
187 72 1 1 YES 0.7649504
188 55 2 1 YES 0.7751482
189 65 2 1 YES 0.8188494
190 67 2 1 YES 0.8267495
191 69 1 1 YES 0.7500215
192 55 2 1 YES 0.7751482
193 51 2 1 YES 0.7556966
194 64 1 1 YES 0.7237715
195 63 1 2 YES 0.9488672
196 69 1 2 YES 0.9562035
197 64 1 2 YES 0.9501660
198 59 1 1 YES 0.6958828
199 73 2 2 YES 0.9761080
200 55 2 2 YES 0.9616650
201 63 1 2 YES 0.9488672
202 60 1 1 YES 0.7015865
203 74 2 2 YES 0.9767318
204 65 1 2 YES 0.9514334
205 79 2 2 YES 0.9796199
206 62 1 1 YES 0.7128069
207 71 2 2 YES 0.9748110
208 63 2 1 NO 0.8106715
209 67 1 1 YES 0.7397241
210 55 2 2 YES 0.9616650
211 54 2 2 YES 0.9606535
212 77 1 1 YES 0.7884310
213 58 2 2 YES 0.9645518
214 64 2 2 YES 0.9697096
215 61 2 1 YES 0.8022137
216 62 1 1 NO 0.7128069
217 67 2 1 YES 0.8267495
218 56 2 2 YES 0.9626515
219 70 1 2 YES 0.9573243
220 70 1 2 YES 0.9573243
221 57 1 2 YES 0.9403786
222 61 1 2 NO 0.9461730
223 77 1 2 YES 0.9644351
224 63 2 1 YES 0.8106715
225 62 2 2 YES 0.9680767
226 59 2 2 YES 0.9654667
227 70 1 2 YES 0.9573243
228 71 1 2 YES 0.9584177
229 56 1 1 YES 0.6784113
230 57 1 2 YES 0.9403786
231 78 1 1 YES 0.7929155
232 64 2 2 YES 0.9697096
233 62 1 2 YES 0.9475364
234 49 1 1 YES 0.6357140
235 77 1 2 YES 0.9644351
236 64 1 2 YES 0.9501660
237 63 1 2 YES 0.9488672
238 54 2 1 YES 0.7703904
239 38 1 1 YES 0.5643302
240 75 1 1 YES 0.7792502
241 70 2 1 YES 0.8380854
242 59 2 2 YES 0.9654667
243 77 2 1 YES 0.8622045
244 61 1 2 YES 0.9461730
245 64 2 1 YES 0.8147953
246 59 1 1 NO 0.6958828
247 71 2 2 YES 0.9748110
248 67 1 2 YES 0.9538771
249 64 2 1 YES 0.8147953
250 68 2 1 NO 0.8305963
251 69 2 1 YES 0.8343747
252 64 2 1 YES 0.8147953
253 59 1 2 YES 0.9433454
254 67 2 1 YES 0.8267495
255 74 1 2 YES 0.9615392
256 77 1 2 YES 0.9644351
257 60 2 2 YES 0.9663588
258 64 2 2 YES 0.9697096
259 70 2 2 YES 0.9741371
260 58 1 2 YES 0.9418797
261 59 1 2 YES 0.9433454
262 39 2 2 YES 0.9420659
263 67 1 1 NO 0.7397241
264 71 1 1 YES 0.7600436
265 70 2 2 YES 0.9741371
266 60 2 1 YES 0.7978793
267 55 2 1 NO 0.7751482
268 60 2 2 YES 0.9663588
269 55 2 1 YES 0.7751482
270 55 1 2 YES 0.9372667
271 70 2 1 NO 0.8380854
272 63 2 2 YES 0.9689035
273 64 2 2 NO 0.9697096
274 59 1 1 YES 0.6958828
275 56 2 2 YES 0.9626515
276 64 2 2 YES 0.9697096
277 62 2 1 YES 0.8064777
278 87 1 1 NO 0.8301164
279 77 2 1 YES 0.8622045
280 59 1 1 YES 0.6958828
281 59 2 1 NO 0.7934743
282 55 2 1 NO 0.7751482
283 46 1 1 NO 0.6166898
284 60 1 2 YES 0.9447762
285 58 2 2 YES 0.9645518
286 58 2 1 YES 0.7889987
287 63 1 1 NO 0.7183216
288 51 2 1 YES 0.7556966
289 61 1 1 YES 0.7072282
290 61 2 1 YES 0.8022137
291 76 2 2 YES 0.9779321
292 71 2 2 YES 0.9748110
293 69 1 2 YES 0.9562035
294 56 2 1 YES 0.7798356
295 67 1 1 YES 0.7397241
296 54 2 2 YES 0.9606535
297 63 1 2 YES 0.9488672
298 47 2 1 YES 0.7351373
299 62 2 2 YES 0.9680767
300 65 2 1 YES 0.8188494
301 63 2 1 YES 0.8106715
302 64 1 2 YES 0.9501660
303 65 2 1 YES 0.8188494
304 51 1 2 YES 0.9305838
305 56 1 2 YES 0.9388411
306 70 2 2 YES 0.9741371
307 58 2 2 YES 0.9645518
308 67 2 2 YES 0.9720082
309 62 1 2 YES 0.9475364
> class<-table(data_logistik$Y,data_logistik$yp_hat>0.5)
> class
TRUE
NO 39
YES 2703.11 Uji Kelayakan Model
> logitgof(data_logistik$Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: data_logistik$Y, fitted(reglog)
X-squared = 4.4921, df = 8, p-value = 0.81024 PEMBAHASAN DAN KESIMPULAN
Setelah melakukan analisis regresi logistik, diperoleh hasil-hasil berikut:
- Analisa Regresi Logistik
Berdasarkan hasil output RStudio dapat dibentuk model regresi logistik, yaitu:
g(x)= -0.77089 + 0.02710X1 + 0.51823X2 + 1.98469X3
Karena nilai koefisien duga pada variabel independen semua bernilai positif maka penambahan variabel X1 (umur), X2 (merokok), dan X3 (mengonsumsi alkohol) bisa menaikkan terjadinya penyakit paru-paru.
- Uji Signifikansi Keseluruhan Model
Berdasarkan hasil output RStudio diperoleh G2 sebesar 30.39671825 dengan nilai chisquare tabel sebesar 5.99. Dikarenakan nilai G2 lebih besar dibandingkan dengan nilai chisquare maka dapat diputuskan bahwa H0 ditolak. Sehingga dapat disimpulkan bahwa model signifikan atau minimal terdapat satu variabel yang berpengaruh terhadap terjadinya penyakit kanker paru-paru.
- Uji Parsial Parameter Model
Berdasarkan hasil output RStudio dapat dilihat bahwa variabel X3 (mengonsumsi alkohol) memiliki p-value kurang dari alpha maka H0 ditolak. Oleh karena itu dapat disimpulkan bahwa mengonsumsi alkohol berpengaruh signifikan terhadap adanya penyakit paru-paru.
- Memeriksa Asumsi Multikolinieritas
Berdasarkan hasil output RStudio diperoleh nilai VIF X1 = 1.008422, nilai VIF X2 = 1.013306, nilai VIF X3 = 1.007631. Karena nilai VIF X1, X2, dan, X3 <= 10 maka tidak terjadi multikolinieritas.
- R square
Berdasarkan hasil output RStudio diperoleh nilai R square adalah 0.1297482. Dari Nilai R square dapat diketahui bahwa variabel independen (X1, X2, dan X3) dapat menjelaskan 12.97% potensi penyebab kanker paru-paru.
- Odds Ratio
Umur (X1) Berdasarkan hasil output RStudio dapat disimpulkan bahwa jika umur bertambah 1 tahun maka kecenderungan terjadinya penyakit kanker paru-paru meningkat 1.027 kali lipat.
Merokok (X2) Berdasarkan hasil output RStudio dapat disimpulkan bahwa merokok memiliki kecenderungan terjadinya penyakit kanker paru-paru sebesar 1.679 kali lipat.
Konsumsi Alkohol (X3) Berdasarkan hasil output RStudio dapat disimpulkan bahwa mengonsumsi alkohol memiliki kecenderungan terjadinya penyakit kanker paru-paru sebesar 7.276 kali lipat.
- Membentuk klasifikasi
Dari 309 data observasi “NO” sejumlah 39 dan “YES” sejumlah 270.
- Uji Kelayakan Model
Berdasarkan hasil output RStudio diperoleh nilai p-value (0.8102) lebih besar dari alpha (0.05), maka H0 diterima. Sehingga dapat disimpulkan bahwa model yang terbentuk layak digunakan.
5 DAFTAR PUSTAKA
- Hosmer, D.W., dan S. Lemeshow. 2000. Applied Logistic Regression.Edisi ke-2.John Wiley and Sons Inc, Canada.
- Tampil, Y., Komalig, H., Langi, Y. 2017. Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Indeks Prestasi Kumulatif (IPK) Mahasiswa FMIPA Universitas Sam Ratulangi Manado. JdC, 6(2).
Sumber data : https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer