Analisis Regresi Logistik Biner pada Data Kelahiran Prematur di RSKIA Muhammadiyah Yogyakarta

Rizky Andreano Simbolon

2023-05-30

1 Bab I Pendahuluan

1.1 Latar Belakang

Bidang kesehatan adalah salah satu bidang kehidupan yang menyita perhatian. Salah satu dari banyak permasalahan kesehatan adalah kelahiran bayi premature. Berdasarkan data statistik, kelahiran prematur terjadi pada 5% kehamilan sedangkan 10%-nya merupakan keguguran. Beberapa penyebab kelahiran premature diantaranya adalah disebabkan oleh janin itu sendiri seperti bayi kembar, bayi dalam posisi sungsang, atau disebabkan oleh ibunya yang memiliki penyakit darah tinggi, anemia, volume ketuban yang terlalu banyak dan lainnya.

1.2 Statistika Deskriptif

Statistik deskriptif adalah salah satu bagian statistik yg mempelajari cara pengumpulan data dan penyajian data yang berfungsi juga untuk menguraikan dan memberikan keterangan keterangan mengenai suatu data(Hasan,2001).

1.3 Regresi Logistik Biner

Regresi logistik merupakan metode analisis data yang digunakan untuk mencari hubungan antara variabel y dengan variabel prediktor yang bersifat dikotomus (Hosmer dan Lemeshow,1989). Output dari variabel respon terdiri atas 2 kategori ,yaitu “sukses” dan “gagal” dimana diberi notasi y=1 (sukses) dan y=0(gagal). Adapun model regresi logisitik seperti berikut: \[ f(X) = \frac{e^{\beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_pX_p}}{{1 + e^{\beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_pX_p}}} \]

1.4 Sumber Data

Sampel merupakan data sekunder yang diambil dari skripsi “Regresi Logistik dan Penerapannya dalam Bidang Kesehatan (Studi kasus Kelahiran Prematur di RSKIA PKU Muhammadiyah Kotagede Yogyakarta). Disusun oleh Nur Asyiah, UIN Sunan Kalijaga Yogyakarta.

Berikut merupakan kategori yang digunakan dalam melakukan analisis :

  1. Kelahiran premature(Y) : -0 = lahir tidak premature -1 = lahir premature
  2. Riwayat premature(X1) : -0 = tidak terdapat riwayat premature sebelumnya -1 = terdapat riwayat premature sebelumnya
  3. Hipertensi(X2) : -0 = tidak memiliki penyakit hipertensi -1 = memiliki penyakit hipertensi
  4. Anemia(X3): -0 = tidak memiliki penyakir anemia -1 = memiliki penyakit anemia
  5. Lahir bayi kembar(X4) : -0 = tidak melahirkan bayi kembar -1 = melahirkan bayi kembar
  6. Pendarahan(X5): -0 = tidak terjadi pendarahan -1 = terjadi pendarahan

2 2 Source Code

2.1 Library yang Dibutuhkan

> #Library
> library(plotrix)
> library(readxl)
> library(car)
> library(pscl)
> library(generalhoslem)
Error: package 'reshape' required by 'generalhoslem' could not be found

Library yang digunakan adalah plotrix sebagai package untuk membentuk piechart, car untuk menghitung VIF masing-masing prediktor, read_excel untuk membaca file excel

2.2 Membangkitkan Data

> library(readxl)
> dataku <- read_excel("D:/komstat/miniprojectkomstat.xlsx")
> 
> X1 <- as.factor(dataku$X1)
> X2 <- as.factor(dataku$X2)
> X3 <- as.factor(dataku$X3)
> X4 <- as.factor(dataku$X4)
> X5 <- as.factor(dataku$X5)
> Y <- as.factor(dataku$Y)
> df <- data.frame(X1,X2,X3,X4,X5,Y)
> str(df)
'data.frame':   228 obs. of  6 variables:
 $ X1: Factor w/ 2 levels "0","1": 2 2 2 2 2 1 2 1 1 2 ...
 $ X2: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 2 1 ...
 $ X3: Factor w/ 2 levels "0","1": 2 1 1 2 1 1 1 1 2 2 ...
 $ X4: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ X5: Factor w/ 2 levels "0","1": 1 1 1 2 1 1 1 1 1 1 ...
 $ Y : Factor w/ 2 levels "0","1": 2 2 1 2 1 1 2 1 1 1 ...

2.3 Pie Chart

> KelahiranPremature<- table(df$Y) 
> KelahiranPremature

  0   1 
147  81 
> kat = c("Lahir Tidak Premature=","Lahir Premature =") 
> persentase= round(KelahiranPremature/sum(KelahiranPremature)*100) 
> kat = paste(kat,persentase) 
> kat = paste(kat,'%',sep ='') 
> pie3D(KelahiranPremature,labels=kat,col=c('mistyrose','red'), main="Persentase Kelahiran Premature")

2.4 Analisis Regresi Logistik

> mreglog<- glm(Y~X1+X2+X3+X4+X5, data = df, family = binomial)
> summary(mreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6464  -0.7984  -0.7686   1.1528   1.6514  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.06827    0.20381  -5.242 1.59e-07 ***
X11          0.08832    0.30691   0.288   0.7735    
X21          1.03805    0.42511   2.442   0.0146 *  
X31          0.83722    0.38544   2.172   0.0298 *  
X41          1.08867    0.95776   1.137   0.2557    
X51          0.99896    0.51951   1.923   0.0545 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 296.69  on 227  degrees of freedom
Residual deviance: 272.37  on 222  degrees of freedom
AIC: 284.37

Number of Fisher Scoring iterations: 4

Pembentukan model regresi logistik didapatkan melalui perintah glm() dan disimpan dengan nama mreglog.Kemudain hasil ringkasannya diperoleh dari summary().

2.5 Statistika Deskriptif

Berdasarkan Data yang digunakan, diperoleh pie chart bagi hasil tes Usia Sekolah Siswa sebagai berikut.

> pie3D(KelahiranPremature,labels=kat,col=c('mistyrose','red'),
+       main="Persentase Kelahiran Premature")

## Hasil dan Pembahasan

{r uji signifikansi model} #Uji Signifikansi Keseluruhan Model

> pR2 <- function(mreglog) {
+ deviance <- sum(mreglog$deviance)
+ null_deviance <- sum(mreglog$null.deviance)
+ return(1 - deviance / null_deviance)
+ }
> pR2(mreglog)
[1] 0.0819765
> qchisq(0.95, df = 2)
[1] 5.991465

pR2 berfungsi untuk membandingkan nilai G2 dengan hasil chisquare untuk mendapatkan hasil yg signifikan. Berdasarkan hasil uji ditemukan bahwa nilai G2 = 0.0819765 lebih kecil dari 5,99 maka gagal tolak H0

{r perhitungan R-square} #R-square pseudo_r_squared <- pR2(mreglog) pseudo_r_squared

{r perolehan odds ratio} #Odds ratio

> beta <- coef(mreglog)
> OR <-  exp(beta)
> SK <- exp(confint(mreglog))
> data.frame(beta, OR, SK)
                   beta        OR    X2.5..    X97.5..
(Intercept) -1.06827341 0.3436013 0.2275965  0.5071626
X11          0.08831726 1.0923346 0.5938867  1.9853337
X21          1.03805133 2.8237092 1.2332271  6.6163478
X31          0.83722082 2.3099383 1.0842089  4.9584459
X41          1.08867333 2.9703308 0.4490051 24.0031403
X51          0.99896456 2.7154687 0.9969394  7.8626672

2.6 Membentuk klasifikasi

> yp_hat<-fitted(mreglog)
> df$yp_hat<-yp_hat
> head(df)
  X1 X2 X3 X4 X5 Y    yp_hat
1  1  0  1  0  0 1 0.4643766
2  1  0  0  0  0 1 0.2729005
3  1  0  0  0  0 0 0.2729005
4  1  0  1  0  1 1 0.7018722
5  1  0  0  0  0 0 0.2729005
6  0  0  0  0  0 0 0.2557316
> class<-table(df$Y,df$yp_hat>0.5)
> class
   
    FALSE TRUE
  0   135   12
  1    56   25

Nilai Prediksi hasil dari model regresi logistik disimpan dalam variabel yp_hat. Selanjutnya, kita ingin menambahkan kolom baru dengan nama yp_hat ke dalam dataframe df, yang akan berisi nilai prediksi yp_hat dari model. Kemudian, kita ingin membuat sebuah tabel kontingensi yang membandingkan variabel target (Y) dengan prediksi biner yp_hat (jika nilai yp_hat lebih besar dari 0.5) dalam kolom class. Output di atas menunjukkan bahwa tabel tersebut memberikan klasifikasi dari model.

2.7 Uji kelayakan model

> logitgof <- function(y, fitted) {
+   observed <- table(y)
+   expected <- table(fitted)
+   return(chisq.test(observed, expected))
+ }
> result <-logitgof(df$Y,fitted(mreglog))
Error in chisq.test(observed, expected): 'x' and 'y' must have the same length

3 Kesimpulan

Berdasarkan uji signifikansi parameter diperoleh dua variabel yang signifikan memberi pengaruh terhadap variabel kelahiran premature yaitu variabel hipertensi dan anemia. Untuk ketiga variabel lain tidak signifikan memberi pengaruh terhadap variabel respon.1. Berdasarkan uji independensi diperoleh variabel hipertensi, anemia, dan terjadinya pendarahan yang memiliki hubungan dengan terjadinya kasus kelahiran premature.

4 Daftar Pustaka

  1. Asyiah, N. (2008). Studi Kasus Kelahiran Prematur di RSKIA PKU Muhammadiyah Kotagede Yogyakarta. Yogyakarta.
  2. Hosmer, David W, dan Stanley Lemeshow. 2000. Applied Logistic Regression.New York: John Wiley dan Sons. Hasan, Iqbal, (2001)
  3. Pokok-Pokok Materi Statistik 1 (Statistik Deskriptif). Jakarta : PT BumiAksara
  4. Hasan, Iqbal, (2004). Analisa Data Penelitian dengan Statistik. Jakarta : PT Bumi Aksara