Penerapan Analisis Regresi Logistik dalam Menentukan Faktor yang Berpengaruh terhadap Anemia pada Ibu Hamil di RSKD Ibu dan Anak Siti Fatimah Makassar

Bryan Arijuna

5/28/2024

Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi merupakan metode statistik yang sering digunakan untuk memodelkan hubungan antara variabel prediktor dan respon. Pada umumnya, model regresi yang banyak digunakan adalah model regresi sederhana maupun regresi berganda dengan variabel respon berskala interval atau rasio (kuantitatif). Akan tetapi, banyak kasus yang ditemukan variabel respon dengan skala nominal atau ordinal (kualitatif) sehingga tidak memungkinkan dilakukan analisis regresi sederhana maupun berganda.

Dalam mendeskripsikan hubungan antara variabel prediktor dan variabel respon dengan data kualitatif, dapat digunakan regresi logistik. Berbeda dengan model regresi linier atau sederhana, model regresi logistik dengan variabel respon kualitatif bertujuan menemukan probabilitas terjadinya sesuatu (probability model).

Dalam kasus ini, regresi logistik diimplementasikan dalam memodelkan hubungan antara faktor-faktor yang berpengaruh terhadap terjadinya anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar. Regresi logistik yang digunakan pada kasus ini adalah regresi logistik biner dikarenakan variabel responnya bersifat ordinal dengan dua kategori.

2 TINJAUAN PUSTAKA

2.1 Regresi Logistik Biner

Regresi logistik merupakan salah satu metode yang dapat digunakan untuk mencari hubungan respon yang bersifat dichotomous (berskala nominal atau ordinal dengan dua kategori) atau polychotomous prediktor (Dukalang, 2019). Regresi logistik biner digunakan ketika variabel respon bersifat biner yang dapat dinotasikan dengan \(Y = 1\) (sukses) dan \(Y = 0\) (gagal). Variabel respon mengikuti distribusi Bernoulli untuk setiap observasi tunggal (Kotimah & Wulandari, 2014).Fungsi probabilitas untuk setiap observasi adalah diberikan sebagai berikut. \[ f(y_i, \pi_i) = \pi_i^{y_i} (1 - \pi_i)^{1 - y_i}; \quad y = 0, 1 \] Dimana jika \(Y = 0\) maka \(f(Y) = 1 - \pi\) dan jika \(Y = 1\) maka \(f(Y) = \pi\).

Model regresi logistik biner dapat ditulis sebagai berikut: \[\pi(\mathbf{X}) = \frac{\exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}{1 + \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}\] Dimana:

\(\pi(\mathbf{X})\) = peluang terjadinya kategori variabel respon

\(p\) = banyaknya variabel prediktor

\(x_p\) = variabel prediktor ke-\(p\)

\((\beta_0, \beta_1, \beta_p)\) = koefisien regresi untuk setiap variabel prediktor

Fungsi \(\pi(\mathbf{X})\) pada persamaan tersebut dapat ditransformasikan menjadi bentuk logit regresi logistik, yaitu sebagai berikut. \[g(\mathbf{X}) = \ln\left(\frac{\pi(\mathbf{x})}{1 - \pi(\mathbf{x})}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p\]

2.2 Uji Multikolinieritas

Uji multikolinearitas merupakan prosedur statistik yang digunakan untuk menentukan apakah terdapat korelasi yang tinggi antara beberapa variabel prediktor dalam model regresi. Suatu model regresi dikatakan baik jika tidak terdapat multikolinieritas karena korelasi yang tinggi ini dapat menyebabkan model regresi menjadi tidak efektif dalam memprediksi variabel dependen karena perubahan pada satu variabel prediktor dapat dipengaruhi oleh perubahan pada variabel prediktor lainnya.

Pengujian multikolinieritas dalam analisis regresi logistik biner dapat dilakukan dengan menggunakan Variance Inflation Factor (VIF) dengan rumus sebagai berikut.

\[VIF_j=\frac{1}{1 - R_j^2}, j = 1,2,..,k\] Suatu model regresi dikatakan tidak terjadi multikolinieritas jika nilai \(VIF <10\).

2.3 Uji Serentak

Pengujian serentak pada regresi logistik bertujuan mendeteksi pengaruh antara semua variabel prediktor secara bersama-sama terhadap variabel respon. Uji serentak dilakukan untuk mengetahui siginifikansi koefisien \(\beta\) terhadap variabel terikat secara keseluruhan (Kotimah & Wulandari, 2014). Uji yang digunakan yaitu Likelihood Ratio Test atau sering disebut sebagai uji G, dimana statistik uji G mengikuti distribusi Chi-square. Hipotesis yang digunakan adalah sebagai berikut.

\(H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0 \\\)

\(H_1: \text{paling sedikit ada satu } \beta_j \neq 0, \text{ dengan } i = 1, 2, \ldots, p\)

Statistik Uji: \[ G = -2 \ln \left( \frac{\left( \frac{n_1}{n} \right)^{n_1} \left( \frac{n_0}{n} \right)^{n_0}}{\sum_{i=1}^n \hat{\pi}_i^{y_i} (1 - \hat{\pi}_i)^{(1 - y_i)}} \right) \]

Dimana:

\(n_0\) = banyak pengamatan dengan \(Y = 0\)

\(n-1\) = banyak pengamatan dengan \(Y = 1\)

\(n\) = banyaknya variabel prediktor

\((\beta_0, \beta_1, \beta_p)\) = koefisien regresi untuk setiap variabel prediktor

Jika nilai statistik uji-G \(> \chi^2_{(p,\alpha)}\), \(H_0\) ditolak sehingga variabel prediktor berpengaruh signifikan secara keseluruhan terhadap variabel respon.

2.4 Uji Parsial

Uji parsial digunakan untuk menguji pengaruh koefisien variabel prediktor secara individual terhadap variabel respon. Dalam analisis regresi logistik biner, uji parsial dilakukan untuk mengetahui apakah setiap variabel prediktor memiliki pengaruh yang signifikan terhadap variabel respon sehingga variabel prediktor tersebut dapat ditentukan apakah layak untuk masuk dalam model atau tidak. Pengujian parsial dilakukan dengan menggunakan statistik uji Wald yang mengikuti distribusi Chi-square dengan hipotesis sebagai berikut.

\(H_0: \beta_j = 0\)

\(H_1: \beta_j \neq 0 \text{ dengan } j = 1, 2, 3, \ldots, p\)

Statistik uji Wald dapat ditulis sebagai berikut.

\(W = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\)

Jika \(\left| W \right| > Z_{\alpha/2}\) atau \(p-value < \alpha%\), \(H_0\) ditolak sehingga variabel prediktor ke-\(j\) dianggap memiliki pengaruh signifikan terhadap variabel respon.

2.5 Odds Ratio

“Menurut Hosmer & Lemeshow (sebagaimana dikutip dalam Situngkir & Sembiring, 2023), odds ratio merupakan ukuran rata-rata besarnya kecenderungan variabel dependen bernilai \(x = 1\) dibandingkan \(x = 0\). Pada nilai \(x = 1\) didefinisikan \(\pi(1) / [1 - \pi(1)]\). Jika \(x = 0\) maka nilai odds ratio akan dibuat sebagai \(\pi(0) / [1 - \pi(0)]\) (Agresti dalam Situngkir dan Sembiring , 2023). Rumus dalam menentukan odds ratio adalah sebagai berikut:

\[\psi = \frac{\text{odds A}}{\text{odds B}} = \frac{\frac{\pi_A}{1 - \pi_A}}{\frac{\pi_B}{1 - \pi_B}}\]

2.6 Ketepatan Klasifikasi

Ketepatan Klasifikasi merupakan suatu alat ukur yang digunakan untuk mengevaluasi keakuratan model logistik biner yang terbentuk. Pengukuran ketepatan klasifikasi dilakukan dengan menghitung kesalahan klasifikasi atau disebut APER (Apparent Error Rate), yaitu fraksi pengamatan dalam sampel pelatihan yang salah diklasifikasikan oleh fungsi klasifikasi sampel (Johnson & Wichern, 2007). Perhitungan APER dan ketepatan klasifikasi dapat menggunakan confusion matrix di bawah ini.

Kelompok Aktual (Y)	Predicted(0)	Predicted (1)	Total
0	\(n_{11}\)	\(n_{12}\)	\(n_1\)
1	\(n_{21}\)	\(n_{22}\)	\(n_2\)

Perhitungan APER dan ketepatan klasifikasi dapat dihitung menggunakan persamaan rumus berikut. \[\text{APER} = \left( \frac{n_{12} + n_{21}}{n_1 + n_2} \right) \times 100\%\] Ketepatan klasifikasi = \(1 - \text{APER}\)

2.7 Uji Kelayakan Model (Goodness of Fit)

Uji kelayakan model digunakan untuk mengevaluasi kecocokan model dengan data, nilai observasi yang diperoleh sama atau mendekati dengan yang diharapkan dalam model (Alwi dkk, 2018). Adapun model yang digunakan harus memenuhi Goodness of Fit. Suatu model dapat dikatakan layak jika data yang dimasukkan dalam model sesuai dengan data yang diamati. Pengujian kelayakan model regresi logistik dapat menggunakan uji Hosmer and Lemeshow.Hipotesis pada uji ini adalah sebagai berikut.

\(H_0:\) Model data layak

\(H_1:\) Model data tidak layak

Tolak \(H_0\) jika \(p-value < \alpha%\)

3 SOURCE CODE

3.1 Library

> library(readxl)
> library(readr)
> library(generalhoslem)
> library(pscl)
> library(ResourceSelection)
> library(car)

3.2 Import Data

> data_reglogit = read_excel("D:/Perkuliahan/Mata Kuliah/Semester 4/Komputasi Statistika/Data Laprak Komstat.xlsx")
> str(data_reglogit)
tibble [46 × 6] (S3: tbl_df/tbl/data.frame)
 $ Status_Anemia  : num [1:46] 1 0 1 1 1 1 0 1 1 1 ...
 $ Jarak_Kehamilan: num [1:46] 2 0 2 0 2 0 8 9 5 0 ...
 $ Usia_Kehamilan : num [1:46] 33 20 38 16 24 20 39 36 29 28 ...
 $ Usia_Ibu       : num [1:46] 36 40 37 37 38 39 12 38 41 16 ...
 $ Pendidikan     : num [1:46] 1 1 1 1 1 1 1 1 1 1 ...
 $ Pekerjaan      : num [1:46] 0 0 0 0 1 0 0 0 0 0 ...
> Y  <- as.factor(data_reglogit$Status_Anemia)
> X1 <- data_reglogit$Jarak_Kehamilan
> X2 <- data_reglogit$Usia_Kehamilan
> X3 <- data_reglogit$Usia_Ibu
> X4 <- data_reglogit$Pendidikan
> X5 <- data_reglogit$Pekerjaan
> str(Y)
 Factor w/ 2 levels "0","1": 2 1 2 2 2 2 1 2 2 2 ...

Keterangan: Y = Status Anemia X1 = Jarak Kehamilan (Tahun) X2 = Usia Ibu (Tahun) X3 = Usia Kehamilan (Minggu) X4 = Pendidikan (0 = Tidak Sekolah, 1 = Sekolah) X5 = Pekerjaan (0 = Tidak Bekerja, 1 = Bekerja)

3.3 Membentuk Data Frame

> data_anemia<-data.frame(X1,X2,X3,X4,X5,Y)
> str(data_anemia)
'data.frame':   46 obs. of  6 variables:
 $ X1: num  2 0 2 0 2 0 8 9 5 0 ...
 $ X2: num  33 20 38 16 24 20 39 36 29 28 ...
 $ X3: num  36 40 37 37 38 39 12 38 41 16 ...
 $ X4: num  1 1 1 1 1 1 1 1 1 1 ...
 $ X5: num  0 0 0 0 1 0 0 0 0 0 ...
 $ Y : Factor w/ 2 levels "0","1": 2 1 2 2 2 2 1 2 2 2 ...

3.4 Analisis Regresi Logistik

> reglogit<-glm(Y~X1+X2+X3+X4+X5,family=binomial,data=data_anemia)

3.5 Uji Multikolinieritas

> vif(reglogit)
      X1       X2       X3       X4       X5 
1.841482 2.008868 1.129146 1.000000 1.000000

3.6 Uji Serentak

> pR2(reglogit)
fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-17.60820214 -19.61722900   4.01805372   0.10241135   0.08364276   0.14576162 
> qchisq(0.95,4)
[1] 9.487729

3.7 Uji Parsial

> summary(reglogit)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_anemia)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.05908   0.06518   0.51954   0.63300   1.01388  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   14.02603 4605.63562   0.003    0.998
X1             0.05539    0.26063   0.213    0.832
X2             0.07267    0.10794   0.673    0.501
X3             0.06500    0.05980   1.087    0.277
X4           -16.64167 4605.63388  -0.004    0.997
X5            16.77588 3681.97805   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 39.234  on 45  degrees of freedom
Residual deviance: 35.216  on 40  degrees of freedom
AIC: 47.216

Number of Fisher Scoring iterations: 17

3.8 Odds Ratio

> beta<-(coef(reglogit))
> beta
 (Intercept)           X1           X2           X3           X4           X5 
 14.02603292   0.05539306   0.07266657   0.06499693 -16.64167443  16.77587655 
> OR_beta<-exp(beta)
> OR_beta
 (Intercept)           X1           X2           X3           X4           X5 
1.234323e+06 1.056956e+00 1.075372e+00 1.067156e+00 5.923967e-08 1.930504e+07 
> cbind(beta,OR_beta)
                    beta      OR_beta
(Intercept)  14.02603292 1.234323e+06
X1            0.05539306 1.056956e+00
X2            0.07266657 1.075372e+00
X3            0.06499693 1.067156e+00
X4          -16.64167443 5.923967e-08
X5           16.77587655 1.930504e+07

3.9 Membentuk Klasifikasi

> yp_hat<-fitted(reglogit)
> data_anemia$yp_hat<-yp_hat
> data_anemia
   X1 X2 X3 X4 X5 Y    yp_hat
1   2 33 36  1  0 1 0.9031767
2   0 20 40  1  0 0 0.8080776
3   2 38 37  1  0 1 0.9347078
4   0 16 37  1  0 1 0.7214991
5   2 24 38  1  1 1 1.0000000
6   0 20 39  1  0 1 0.7977951
7   8 39 12  1  0 0 0.8086810
8   9 36 38  1  0 1 0.9511434
9   5 29 41  1  0 1 0.9193485
10  0 28 16  1  0 1 0.6127706
11  2 26 39  1  0 1 0.8720666
12  0 25 41  1  0 1 0.8659828
13  0 23 33  1  0 1 0.7686294
14  4 29 32  1  0 1 0.8573146
15  2 22 36  1  0 1 0.8074769
16  2 22 40  1  0 1 0.8447083
17  7 24 32  1  0 1 0.8314599
18  0 21 38  1  0 1 0.7990295
19  1 28 36  0  0 1 1.0000000
20  2 25 42  0  0 1 1.0000000
21  0 20 25  1  0 1 0.6136339
22  0 21 31  1  0 0 0.7161129
23  6 42 40  1  0 1 0.9667083
24  1 22 39  1  0 1 0.8282530
25  1 27 40  1  0 1 0.8809677
26  2 27 39  1  0 0 0.8799569
27  4 24 40  1  0 1 0.8754254
28  5 35 40  1  0 1 0.9429202
29  2 37 20  1  0 1 0.8151378
30  2 25 39  1  0 1 0.8637379
31  0 20 38  1  0 1 0.7871068
32  3 35 38  1  1 1 1.0000000
33  2 25 39  1  0 1 0.8637379
34  1 26 37  1  0 1 0.8499194
35  1 20 37  1  0 1 0.7854930
36  1 32 24  1  1 1 1.0000000
37  0 22 30  1  0 0 0.7176695
38  1 24 30  1  0 1 0.7565132
39  0 25 39  1  0 1 0.8501659
40  0 20 24  1  0 1 0.5981148
41  4 25 38  1  0 1 0.8690378
42  4 38 38  1  0 1 0.9446503
43  6 36 42  1  0 1 0.9553227
44  0 20 40  1  0 0 0.8080776
45  0 21 40  1  0 0 0.8190958
46  6 29 38  1  0 1 0.9083731
> class<-table(data_anemia$Y,data_anemia$yp_hat>0.5)
> class
   
    TRUE
  0    7
  1   39

3.10 Uji Kelayakan Model

> hoslem.test(data_anemia$Y, fitted(reglogit))

    Hosmer and Lemeshow goodness of fit (GOF) test

data:  data_anemia$Y, fitted(reglogit)
X-squared = 46, df = 8, p-value = 2.377e-07

4 HASIL DAN PEMBAHASAN

4.1 Model Regresi Logistik

> summary(reglogit)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_anemia)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.05908   0.06518   0.51954   0.63300   1.01388  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   14.02603 4605.63562   0.003    0.998
X1             0.05539    0.26063   0.213    0.832
X2             0.07267    0.10794   0.673    0.501
X3             0.06500    0.05980   1.087    0.277
X4           -16.64167 4605.63388  -0.004    0.997
X5            16.77588 3681.97805   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 39.234  on 45  degrees of freedom
Residual deviance: 35.216  on 40  degrees of freedom
AIC: 47.216

Number of Fisher Scoring iterations: 17

Model regresi logistik yang terbentuk adalah sebagai berikut. \[\pi(\mathbf{X}) = \frac{\exp(14,02603 + 0,05539 x_1 + 0,07267 x_2 + 0.06500 x_3 -16.64167 x4 + 16.77588 x_5)}{1 + \exp(14,02603 + 0,05539 x_1 + 0,07267 x_2 + 0.06500 x_3 -16.64167 x4 + 16.77588 x_5)}\]

4.2 Uji Multikolinieritas

> vif(reglogit)
      X1       X2       X3       X4       X5 
1.841482 2.008868 1.129146 1.000000 1.000000

Berdasarkan output di atas, seluruh variabel prediktor memiliki nilai \(VIF < 10\) sehingga tidak terjadi multikolinieritas pada model regresi.

4.3 Uji Serentak

> pR2(reglogit)
fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-17.60820214 -19.61722900   4.01805372   0.10241135   0.08364276   0.14576162 
> qchisq(0.95,4)
[1] 9.487729

Berdasarkan output di atas, nilai G2 sebesar 4,0180 lebih kecil daripada nilai Chi-square tabel sebesar 9,4877 sehingga \(H_0\) diterima. Variabel prediktor tidak berpengaruh signifikan secara keseluruhan terhadap variabel respon.

4.4 Uji Parsial

> summary(reglogit)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_anemia)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.05908   0.06518   0.51954   0.63300   1.01388  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   14.02603 4605.63562   0.003    0.998
X1             0.05539    0.26063   0.213    0.832
X2             0.07267    0.10794   0.673    0.501
X3             0.06500    0.05980   1.087    0.277
X4           -16.64167 4605.63388  -0.004    0.997
X5            16.77588 3681.97805   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 39.234  on 45  degrees of freedom
Residual deviance: 35.216  on 40  degrees of freedom
AIC: 47.216

Number of Fisher Scoring iterations: 17

Berdasarkan output di atas, \(p-value>\alpha (0,05)\) untuk semua variabel prediktor sehingga \(H_0\) diterima. Variabel prediktor tidak berpengaruh signifikan secara parsial terhadap variabel respon.

4.5 Odds Ratio

> beta<-(coef(reglogit))
> beta
 (Intercept)           X1           X2           X3           X4           X5 
 14.02603292   0.05539306   0.07266657   0.06499693 -16.64167443  16.77587655 
> OR_beta<-exp(beta)
> OR_beta
 (Intercept)           X1           X2           X3           X4           X5 
1.234323e+06 1.056956e+00 1.075372e+00 1.067156e+00 5.923967e-08 1.930504e+07 
> cbind(beta,OR_beta)
                    beta      OR_beta
(Intercept)  14.02603292 1.234323e+06
X1            0.05539306 1.056956e+00
X2            0.07266657 1.075372e+00
X3            0.06499693 1.067156e+00
X4          -16.64167443 5.923967e-08
X5           16.77587655 1.930504e+07

Interpretasi:

X1: Jarak Kehamilan (OR = 1,056956)

Setiap peningkatan satu tahun pada jarak kehamilan meningkatkan kecenderungan seorang ibu hamil mengalami anemia sebesar 1.056 kali, dengan asumsi variabel lain konstan.
X2: Usia Ibu (OR = 1,075372)

Setiap peningkatan satu tahun pada usia meningkatkan kecenderungan seorang ibu hamil mengalami anemia sebesar 1,075 kali, dengan asumsi variabel lain konstan.
X3: Usia Kehamilan (OR = 1,067156):

Setiap peningkatan satu minggu pada usia kehamilan meningkatkan kecenderungan seorang ibu hamil mengalami anemia sebesar 1.067 kali, dengan asumsi variabel lain konstan.
X4: Pendidikan (OR = 0,0000000592): Seorang ibu yang bersekolah memiliki kecenderungan mengalami anemia yang jauh lebih rendah (sekitar 0.0000000592 kali) dibandingkan dengan ibu yang tidak bersekolah, dengan asumsi variabel lain konstan.
X5: Pekerjaan (OR = 19305040) Seorang ibu yang bekerja memiliki kecenderungan mengalami anemia yang jauh lebih tinggi (sekitar 19305040 kali) dibandingkan dengan ibu yang tidak bekerja, dengan asumsi variabel lain konstan.

4.6 Ketepatan Klasifikasi

> yp_hat<-fitted(reglogit)
> data_anemia$yp_hat<-yp_hat
> data_anemia
   X1 X2 X3 X4 X5 Y    yp_hat
1   2 33 36  1  0 1 0.9031767
2   0 20 40  1  0 0 0.8080776
3   2 38 37  1  0 1 0.9347078
4   0 16 37  1  0 1 0.7214991
5   2 24 38  1  1 1 1.0000000
6   0 20 39  1  0 1 0.7977951
7   8 39 12  1  0 0 0.8086810
8   9 36 38  1  0 1 0.9511434
9   5 29 41  1  0 1 0.9193485
10  0 28 16  1  0 1 0.6127706
11  2 26 39  1  0 1 0.8720666
12  0 25 41  1  0 1 0.8659828
13  0 23 33  1  0 1 0.7686294
14  4 29 32  1  0 1 0.8573146
15  2 22 36  1  0 1 0.8074769
16  2 22 40  1  0 1 0.8447083
17  7 24 32  1  0 1 0.8314599
18  0 21 38  1  0 1 0.7990295
19  1 28 36  0  0 1 1.0000000
20  2 25 42  0  0 1 1.0000000
21  0 20 25  1  0 1 0.6136339
22  0 21 31  1  0 0 0.7161129
23  6 42 40  1  0 1 0.9667083
24  1 22 39  1  0 1 0.8282530
25  1 27 40  1  0 1 0.8809677
26  2 27 39  1  0 0 0.8799569
27  4 24 40  1  0 1 0.8754254
28  5 35 40  1  0 1 0.9429202
29  2 37 20  1  0 1 0.8151378
30  2 25 39  1  0 1 0.8637379
31  0 20 38  1  0 1 0.7871068
32  3 35 38  1  1 1 1.0000000
33  2 25 39  1  0 1 0.8637379
34  1 26 37  1  0 1 0.8499194
35  1 20 37  1  0 1 0.7854930
36  1 32 24  1  1 1 1.0000000
37  0 22 30  1  0 0 0.7176695
38  1 24 30  1  0 1 0.7565132
39  0 25 39  1  0 1 0.8501659
40  0 20 24  1  0 1 0.5981148
41  4 25 38  1  0 1 0.8690378
42  4 38 38  1  0 1 0.9446503
43  6 36 42  1  0 1 0.9553227
44  0 20 40  1  0 0 0.8080776
45  0 21 40  1  0 0 0.8190958
46  6 29 38  1  0 1 0.9083731
> class<-table(data_anemia$Y,data_anemia$yp_hat>0.5)
> class
   
    TRUE
  0    7
  1   39

Perhitungan APER: \[\text{APER} = \left( \frac{n_{12} + n_{21}}{n_1 + n_2} \right) \times 100\%\] \[\text{APER} = \left( \frac{7 + 1}{7 + 40} \right) \times 100\% = 0,17 \] Ketepatan klasifikasi = \(1 - 0,17 = 0,83 = 83\%\)

Berdasarkan hasil perhitungan, diperoleh nilai APER sebesar 0,17 sehingga ketepatan klasifikasi model logistik biner sebesar 83% yang mengartikan bahwa model regresi logistik biner mampu mengklasifikasikan objek penelitian dengan tepat sebesar 83%.

4.7 Uji Kelayakan Model

> hoslem.test(data_anemia$Y, fitted(reglogit))

    Hosmer and Lemeshow goodness of fit (GOF) test

data:  data_anemia$Y, fitted(reglogit)
X-squared = 46, df = 8, p-value = 2.377e-07

Berdasarkan output di atas, \(p-value < \alpha(0,05)%\) sehingga tolak \(H_0\) dan dapat disimpulkan bahwa model data tidak layak.

5 KESIMPULAN

Analisis Regresi Logistik merupakan metode statistik yang tepat untuk menangani data dengan variabel respon berupa skala data nominal atau ordinal. Akan tetapi pada kasus ini, hasil uji kelayakan model menunjukkan bahwa model data tidak layak sehingga peneliti perlu mengevaluasi instrumen penelitian yang digunakan, hasil, dan analisis yang diperoleh agar informasi yang dihasilkan dari analisis regresi ini relevan dengan data.

6 DAFTAR PUSTAKA

Varamita, Aprilyani. (2021). Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di RSKD Ibu dan Anak Siti. Universitas Negeri Makassar.

Dukalang, H. H. (2019). Perbandingan Regresi Logistik Biner dan Probit Biner dalam Pemodelan Tingkat Partisipasi Angkatan Kerja. EULER: Jurnal Ilmiah Matematika, Sains dan Teknologi, 7(2), 62-70.

Kotimah, M. K., & Wulandari, S. P. (2014). Model Regresi Logistik Biner Stratifikasi pada Partisipasi Ekonomi Perempuan di Provinsi Jawa Timur. Jurnal Sains dan Seni ITS, 3(1), D1-D6.

Johnson, R. A., Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). New Jersey: Prentice Hall, Inc

Situngkir, R. H., Sembiring, P. (2023). Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Kesejahteraan Masyarakat Kabupaten/Kota Di Pulau Nias. Jurnal Matematika Dan Pendidikan Matematika, 6(1), 25–31.

Alwi, W., Ermawati, E., & Husain, S. (2018). Analisis regresi logistik biner untuk memprediksi kepuasan pengunjung pada rumah sakit umum daerah majene. Jurnal Matematika dan Statistika serta Aplikasinya, 6(1), 20-20.