Analis Regresi Logistik

Cellina Febri Aulia Sugiarto

2024-06-01

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi logistik biner merupakan salah satu metode statistika yang sangat penting dalam memahami hubungan antara variabel dependen biner dan satu atau lebih variabel independen. Metode ini digunakan secara luas dalam berbagai disiplin ilmu, termasuk ilmu sosial, kedokteran, pemasaran, dan ilmu politik. Berbeda dengan regresi linier yang memprediksi nilai kontinu, regresi logistik biner bertujuan untuk memodelkan probabilitas kejadian dari suatu peristiwa biner, seperti ya atau tidak, sukses atau gagal, dan lainnya. Hal ini membuat regresi logistik biner sangat relevan dalam situasi di mana hasil yang diamati adalah bersifat kategorikal. Misalnya, dalam bidang kedokteran, metode ini digunakan untuk memprediksi apakah seorang pasien memiliki penyakit tertentu berdasarkan serangkaian variabel prediktor.

Dalam penerapan praktisnya, regresi logistik biner memerlukan pemahaman yang mendalam tentang teori probabilitas dan distribusi logistik. Model ini didasarkan pada fungsi logit, yang menghubungkan probabilitas kejadian dengan kombinasi linear dari variabel prediktor. Oleh karena itu, pemahaman mengenai interpretasi koefisien dalam konteks logit sangat penting untuk menarik kesimpulan yang benar dari model. Salah satu keuntungan utama dari regresi logistik biner adalah kemampuannya untuk mengatasi masalah heteroskedastisitas dan asumsi normalitas yang seringkali menjadi kendala dalam regresi linier. Dengan demikian, model ini menjadi alat yang sangat kuat dalam analisis data yang bersifat kategorikal.

Seiring dengan perkembangan teknologi dan peningkatan kapasitas komputasi, analisis regresi logistik biner menjadi semakin mudah diakses dan diimplementasikan. Software statistika modern seperti R, Python, dan SPSS menyediakan fungsi-fungsi khusus untuk melakukan analisis regresi logistik dengan cepat dan akurat. Mahasiswa statistika, seperti kita, perlu menguasai penggunaan alat-alat ini untuk dapat melakukan analisis yang kompleks dan menarik kesimpulan yang valid dari data yang ada. Selain itu, kemampuan untuk melakukan analisis regresi logistik biner juga membuka peluang untuk berkontribusi dalam berbagai penelitian ilmiah yang memerlukan pemodelan probabilitas kejadian.

Oleh karena itu, mempelajari regresi logistik biner tidak hanya memberikan keunggulan akademis, tetapi juga keterampilan praktis yang sangat dibutuhkan di dunia industri. Dengan latar belakang ini, laporan praktikum komputasi statistika ini akan membahas langkah-langkah dalam melakukan analisis regresi logistik biner, asumsi beserta interpretasi hasil.

1.2 Tinjauan Pustaka

1.2.1 Statistika Deskriptif

Statistika deskriptif adalah cabang dari ilmu statistik yang bertujuan untuk menggambarkan, meringkas, dan menganalisis data dalam bentuk yang mudah dipahami. Statistika deskriptif melibatkan penggunaan tabel, grafik, dan ukuran ringkasan numerik untuk menjelaskan karakteristik dasar dari data yang dikumpulkan. Menurut Santoso (2015), dalam penelitian yang dipublikasikan dalam Jurnal Teknologi Informasi, statistika deskriptif membantu dalam memberikan gambaran awal tentang distribusi dan pola data sebelum dilakukan analisis yang lebih mendalam. Ini termasuk perhitungan seperti mean, median, modus, variansi, dan standar deviasi, serta representasi data melalui histogram, diagram batang, dan boxplot. Dengan demikian, statistika deskriptif merupakan alat yang sangat penting dalam berbagai bidang penelitian dan aplikasi praktis, menyediakan dasar yang kuat untuk analisis data yang lebih lanjut.

1.2.2 Analisis Regresi

Analisis regresi adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen dan satu atau lebih variabel independen. Dalam regresi linier sederhana, hubungan ini diasumsikan linear dan dapat direpresentasikan dengan persamaan :\[Y = \beta_{0} + \beta_1X_1 + \beta_2X_2+...+\beta_nX_n\]dimana \(Y\) adalah variabel dependen, \(X_i\) adalah variabel independen, \(\beta_0\) adalah intersep, \(\beta_1\) adalah koefisien regresi variabel prediktor, dan \(\epsilon\) adalah error term. Montgomery, Peck, dan Vining (2012) dalam buku “Introduction to Linear Regression Analysis” memberikan penjelasan komprehensif mengenai metode ini, termasuk cara mengestimasi parameter-parameter tersebut menggunakan metode kuadrat terkecil yang meminimalkan jumlah kuadrat dari residual atau selisih antara nilai yang diamati dan nilai yang diprediksi.

Regresi linier berganda memperluas konsep regresi linier sederhana dengan melibatkan lebih dari satu variabel independen. Wooldridge (2016) dalam buku “Introductory Econometrics: A Modern Approach” menekankan pentingnya memahami asumsi-asumsi dasar dalam analisis regresi, seperti linearitas, independensi, homoskedastisitas, dan normalitas residual. Pemahaman dan pengujian terhadap asumsi-asumsi ini sangat penting untuk memastikan validitas dan reliabilitas hasil analisis regresi. Wooldridge juga membahas berbagai teknik diagnostik dan penyesuaian model untuk menangani pelanggaran terhadap asumsi-asumsi tersebut.

1.2.3 Regresi Logistik

Regresi logistik adalah metode statistik yang digunakan untuk menganalisis hubungan antara satu variabel dependen kategori dengan satu atau lebih variabel independen. Regresi logistik dapat digunakan untuk memodelkan variabel dependen yang memiliki dua atau lebih kategori, termasuk kasus khusus regresi logistik biner (dua kategori) dan regresi logistik multinomial (lebih dari dua kategori).

1.2.4 Regresi Logistik Biner

Regresi logisitik biner digunakan untuk mengetahui hubungan antara suatu variabel independen yang berupa dua kategori atau berskala biner. Dua kategori yang digunakan berupa dua bilangan 0 dan 1. Model regresi logistik biner secara umum dinotasikan dengan variabel dependen (\(x_1\),\(x_2\),\(x_3\),…..,\(x_4\)) adalah sebagai berikut : \[\pi(X) = \frac{exp(\beta_0 + \beta_1X)}{1- exp(\beta_0+\beta_1X)}\]dimana \(\pi(X)\) merupakan eluang sukses sebagai fungsi logistik dari X (berapapun nilai X, fungsi ini akan bernilai 0 sampai 1. Kemudian dari bentuk logit regresi logistik dapat ditentukan pula Odds Ratio-nya sebagai berikut :

\[ \frac{\pi(X)}{1-\pi(X)} = exp(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k) \]

Kemudian bentuk tersebut ditrasformasi dan didapat bentuk logit regresi logistik sebagai berikut :

\[ g(X) = ln(\frac{\pi(X)}{1-\pi(X)})=exp(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k) \]

dimana \(p\) adalah probabilitas terjadinya kejadian yang diinginkan, \(X_1\), \(X_2\), \(\ldots\),\(X_k\) adalah variabel independen, dan \(\beta_0, \beta_1, \ldots, \beta_k\) adalah koefisien regresi.

1.2.5 Uji Multikolinearitas

Uji multikolinearitas dalam analisis regresi berguna untuk mengidentifikasi dan mengatasi hubungan linear yang kuat antara variabel independen. Multikolinearitas yang tinggi dapat menyebabkan koefisien regresi tidak stabil dan sulit untuk diinterpretasikan. Untuk menguji keberadaan multikolinearitas, dapat digunakan metode nilai tolerance atau faktor inflasi varian(VIF) dengan rumus :

\[ VIF=\frac{1}{Tolerance} \]

\[ atau \]

\[ Tolerance=\frac{1}{1-R^{2}} \]dengan nilai VIF harus berada pada angka 10. Jika nilai VIF melebihi 10 dan nilai toleransi kurang dari 0,10, maka terdapat tingkat multikolinieritas yang tinggi antara variabel bebas dan variabel bebas lainnya begitu juga sebaliknya.

1.2.6 Uji Signifikansi Parameter

1.2.6.1 Uji Signifikansi Keseluruhan Model

Untuk mengetahui signifikan atau tidaknya parameter variabel bebas secara keseluruhan, berikut merupakan hipotesis yang digunakan :

\(H_{0}=\beta _{1}=\beta _ {2}=\ldots =\beta _{p}=0\) vs \(H_{1}=\) minimal ada satu \(\beta _{k}\neq0,k=1,2,\ldots ,p\) dimana \(p\) merupakan jumlah variabel prediktor dalam model. Berikut merupakan statistik uji untuk likelihood-ratio test yang digunakan dalam pengujian ini :

\[ G=-2\sum O_{ij}\ln \left ( \frac{O_{ij}}{E_{ij}} \right ) \]

dimana \(O_{ij}\) merupakan nilai observasi pada baris ke-i kolom ke-j dan \(E_{ij}\) merupakan nilai harapan pada baris ke-i kolom ke-j. Keputusan akan tolak \(H_{0}\) apabila nilai statistik uji \(G>x _{\alpha ,v}^{2}\) atau p-value statistik uji \(G<\alpha(0.05)\).

1.2.6.2 Uji Parsial

Uji parsial sangat penting dalam analisis regresi untuk mengidentifikasi variabel-variabel independen yang signifikan. Dalam studinya, Handayani menemukan bahwa tidak semua variabel independen yang dimasukkan ke dalam model regresi memiliki pengaruh signifikan, sehingga uji parsial membantu dalam menyederhanakan model dengan hanya menyertakan variabel-variabel yang penting. Hal ini mendukung keputusan yang lebih tepat berdasarkan data empiris dan meningkatkan validitas model regresi yang digunakan.

1.2.6.3 Odds Ratio

Odds ratio (OR) adalah ukuran yang digunakan untuk menilai kekuatan asosiasi atau hubungan antara dua variabel, biasanya variabel independen dengan variabel dependen biner. OR menggambarkan rasio peluang (odds) terjadinya kejadian tertentu pada kelompok yang terpapar dibandingkan dengan kelompok yang tidak terpapar. Dalam konteks regresi logistik, OR diperoleh dari eksponen koefisien regresi (\(e^{\beta }\)) dan memberikan interpretasi yang mudah dipahami mengenai efek variabel independen. Sebagai contoh, OR lebih besar dari 1 menunjukkan bahwa peningkatan nilai variabel independen meningkatkan peluang terjadinya kejadian begitu juga sebaliknya.

1.2.6.4 Ketepatan hasil Klasifikasi

Tingkat ketepatan hasil klasifikasi dapat dievaluasi melalui nilai akurasi yang didapat dari matriks kebingungan. Untuk variabel respon yang memiliki dua kategori, ada empat kemungkinan hasil prediksi yang bisa terjadi, yaitu true positive (TP), true negative (TN), false positive (FP), dan false negative (FN). Rumus untuk menghitung tingkat akurasi adalah sebagai berikut :

\[ Akurasi=\frac{TN+TP}{TP+FP+FN+TN} \]

1.2.6.5 Uji Kelayakan Model

Uji kelayakan model adalah langkah krusial dalam analisis regresi logistik untuk memastikan bahwa model yang dibangun sesuai dengan data yang dianalisis. Salah satu metode yang sering digunakan adalah uji goodness-of-fit (GOF), yang mengukur seberapa baik model yang diestimasi sesuai dengan data yang diamati. Uji ini membantu dalam mengidentifikasi apakah model memberikan prediksi yang konsisten dengan data yang diamati. Jika hasil uji menunjukkan kecocokan yang buruk, hal tersebut bisa menjadi indikasi bahwa model perlu diperbaiki . Penggunaan uji goodness-of-fit dalam regresi logistik memberikan gambaran tentang seberapa baik model menangkap struktur dasar data dan seberapa baik model tersebut dapat digunakan untuk tujuan prediksi. Uji ini juga membantu dalam memahami apakah ada kebutuhan untuk menambahkan variabel atau interaksi tambahan dalam model.

1.3 Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari RSKD Ibu dan Anak Siti Fatimah Makassar. Data tersebut merupakan data 20 ibu hamil yang di asumsikan mengikuti regresi logistik biner beserta faktor-faktor yang diduga berpengaruh terhadap terjadinya anemia pada ibu hamil di Makassar pada bulan Januari - Agustus 2017.

> data <-read_csv("C:/Users/ASUS/Documents/Semester 4/KOMSTAT/dataset_2.csv")
> Y <- as.factor(data$Y)
> X1 <- data$X1
> X2 <- data$X2
> X3 <- data$X3
> X4 <- as.factor(data$X4)
> X5 <- as.factor(data$X5)
> data_logistik<-data.frame(X1,X2,X3,X4,X5,Y)
> head(data_logistik, 20)
   X1 X2 X3 X4 X5 Y
1   2 33 36  1  0 0
2   0 20 40  1  0 1
3   2 38 37  1  0 1
4   0 16 37  1  0 0
5   2 24 38  1  1 0
6   0 20 39  1  0 0
7   8 39 12  1  0 1
8   9 36 38  1  0 0
9   5 29 41  1  0 0
10  0 28 16  1  0 1
11  2 26 39  1  0 0
12  0 25 41  1  0 1
13  0 23 33  1  0 0
14  4 29 32  1  0 0
15  2 22 36  1  0 0
16  2 22 40  1  0 0
17  7 24 32  1  0 0
18  3 35 38  1  1 1
19  1 28 36  0  0 1
20  2 25 42  0  0 1

Keterangan :

  • \(Y\)= Status Anemia (1=Tidak, 0=Iya)

  • \(X_1\)= Jarak Kehamilan (Tahun)

  • \(X_2\)= Usia Ibu (Tahun)

  • \(X_3\)= Usia Kehamilan (Minggu)

  • \(X_4\)= Pendidikan (1=Tidak Sekolah, 0=Sekolah)

  • \(X_5\)= Pekerjaan (1=Tidak Bekerja, 0=Bekerja)

    Sumber : https://eprints.unm.ac.id/6321/

1.4 Tujuan

  1. Mengetahui signifikansi variabel-variabel prediktor secara serentak terhadap kejadian anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar.

  2. Mengetahui signifikansi variabel-variabel prediktor secara parsial terhadap kejadian anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar.

  3. Mengetahui model regresi logistik biner kejadian anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar.

  4. Mengetahui pengaruh dari variabel prediktor terhadap kejadian anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar.

1.5 Manfaat

Manfaat yang ingin dicapai dari laporan praktikum ini adalah :

  • Bagi penulis

    Dapat mengaplikasikan metode analisis regresi logistik biner pada data kasus serta melakukan uji asumsi untuk melihat faktor-faktor yang mempengaruhi data terhadap masalah.

  • Bagi Pembaca

    Menambah wawasan bagi pembaca dan dapat dijadikan referensi bagi mahasiswa lain yang mempelajari mata kuliah komputasi statistika.

2 SOURCE CODE

2.1 Library

> # Library
> library(readr)
> library(generalhoslem)
> library(pscl)
> library(car)

2.2 Impor Data

> #Mengimport data
> data <-read_csv("C:/Users/ASUS/Documents/Semester 4/KOMSTAT/dataset_2.csv")
> str(data)
spc_tbl_ [20 × 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ kode: num [1:20] 1 2 3 4 5 6 7 8 9 10 ...
 $ Y   : num [1:20] 0 1 1 0 0 0 1 0 0 1 ...
 $ X1  : num [1:20] 2 0 2 0 2 0 8 9 5 0 ...
 $ X2  : num [1:20] 33 20 38 16 24 20 39 36 29 28 ...
 $ X3  : num [1:20] 36 40 37 37 38 39 12 38 41 16 ...
 $ X4  : num [1:20] 1 1 1 1 1 1 1 1 1 1 ...
 $ X5  : num [1:20] 0 0 0 0 1 0 0 0 0 0 ...
 - attr(*, "spec")=
  .. cols(
  ..   kode = col_double(),
  ..   Y = col_double(),
  ..   X1 = col_double(),
  ..   X2 = col_double(),
  ..   X3 = col_double(),
  ..   X4 = col_double(),
  ..   X5 = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
> Y <- as.factor(data$Y)
> X1 <- data$X1
> X2 <- data$X2
> X3 <- data$X3
> X4 <- as.factor(data$X4)
> X5 <- as.factor(data$X5)
> str(Y)
 Factor w/ 2 levels "0","1": 1 2 2 1 1 1 2 1 1 2 ...
> #Membentuk data frame
> data_logistik<-data.frame(X1,X2,X3,X4,X5,Y)
> str(data_logistik)
'data.frame':   20 obs. of  6 variables:
 $ X1: num  2 0 2 0 2 0 8 9 5 0 ...
 $ X2: num  33 20 38 16 24 20 39 36 29 28 ...
 $ X3: num  36 40 37 37 38 39 12 38 41 16 ...
 $ X4: Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...
 $ X5: Factor w/ 2 levels "0","1": 1 1 1 1 2 1 1 1 1 1 ...
 $ Y : Factor w/ 2 levels "0","1": 1 2 2 1 1 1 2 1 1 2 ...
> head(data_logistik, 20)
   X1 X2 X3 X4 X5 Y
1   2 33 36  1  0 0
2   0 20 40  1  0 1
3   2 38 37  1  0 1
4   0 16 37  1  0 0
5   2 24 38  1  1 0
6   0 20 39  1  0 0
7   8 39 12  1  0 1
8   9 36 38  1  0 0
9   5 29 41  1  0 0
10  0 28 16  1  0 1
11  2 26 39  1  0 0
12  0 25 41  1  0 1
13  0 23 33  1  0 0
14  4 29 32  1  0 0
15  2 22 36  1  0 0
16  2 22 40  1  0 0
17  7 24 32  1  0 0
18  3 35 38  1  1 1
19  1 28 36  0  0 1
20  2 25 42  0  0 1

2.3 Statistika Deskriptif

> #Statistika Deskriptif
> statdesk <- summary(data)
> statdesk
      kode             Y             X1             X2              X3       
 Min.   : 1.00   Min.   :0.0   Min.   :0.00   Min.   :16.00   Min.   :12.00  
 1st Qu.: 5.75   1st Qu.:0.0   1st Qu.:0.00   1st Qu.:22.75   1st Qu.:35.25  
 Median :10.50   Median :0.0   Median :2.00   Median :25.50   Median :37.50  
 Mean   :10.50   Mean   :0.4   Mean   :2.55   Mean   :27.10   Mean   :35.15  
 3rd Qu.:15.25   3rd Qu.:1.0   3rd Qu.:3.25   3rd Qu.:30.00   3rd Qu.:39.25  
 Max.   :20.00   Max.   :1.0   Max.   :9.00   Max.   :39.00   Max.   :42.00  
       X4            X5     
 Min.   :0.0   Min.   :0.0  
 1st Qu.:1.0   1st Qu.:0.0  
 Median :1.0   Median :0.0  
 Mean   :0.9   Mean   :0.1  
 3rd Qu.:1.0   3rd Qu.:0.0  
 Max.   :1.0   Max.   :1.0  

2.4 Asumsi Multikolinieritas

> #Asumsi Multikolinieritas
> reg <- glm(Y~X1+X2+X3+X4+X5,family=binomial,data=data_logistik)
> vif_values <- vif(reg)
> vif_values
      X1       X2       X3       X4       X5 
4.389884 2.425809 3.015888 1.000000 1.201018 

2.5 Analisis Regresi Logistik

> #Analisis Regresi Logistik
> reglog<-glm(Y~X1+X2+X3+X4+X5,family=binomial,data=data_logistik)
> reglog

Call:  glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_logistik)

Coefficients:
(Intercept)           X1           X2           X3          X41          X51  
    18.1534      -0.8837       0.2987      -0.1461     -20.1548       0.9487  

Degrees of Freedom: 19 Total (i.e. Null);  14 Residual
Null Deviance:      26.92 
Residual Deviance: 13.37    AIC: 25.37

2.6 Uji Signifikansi Keseluruhan Model

> #Uji Signifikansi Keseluruhan Model
> pr2<-pR2(reglog)
fitting null model for pseudo-r2
> pr2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
 -6.6845764 -13.4602333  13.5513138   0.5033833   0.4921482   0.6653108 
> qchisq<-qchisq(0.95,2)
> qchisq
[1] 5.991465

2.7 Uji Parsial

> #Uji Parsial Parameter Model
> parsial<-summary(reglog)
> parsial

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_logistik)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.5443  -0.5747  -0.1737   0.2569   2.0064  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)  
(Intercept)   18.1534  4129.1391   0.004   0.9965  
X1            -0.8837     0.5979  -1.478   0.1394  
X2             0.2987     0.1642   1.819   0.0689 .
X3            -0.1461     0.1460  -1.001   0.3170  
X41          -20.1548  4129.1323  -0.005   0.9961  
X51            0.9487     2.0160   0.471   0.6380  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26.920  on 19  degrees of freedom
Residual deviance: 13.369  on 14  degrees of freedom
AIC: 25.369

Number of Fisher Scoring iterations: 17

2.8 Odds Ratio

> #Odds Ratio
> beta<-(coef(reglog))
> beta
(Intercept)          X1          X2          X3         X41         X51 
 18.1533691  -0.8836617   0.2987133  -0.1460564 -20.1547907   0.9486779 
> OR_beta<-exp(beta)
> OR_beta
 (Intercept)           X1           X2           X3          X41          X51 
7.654345e+07 4.132669e-01 1.348123e+00 8.641089e-01 1.765573e-09 2.582293e+00 
> OR<-cbind(beta,OR_beta)

2.9 Ketepatan Hasil Klasifikasi Model

> #Membentuk klasifikasi
> yp_hat<-fitted(reglog)
> data_logistik$yp_hat<-yp_hat
> data_logistik
   X1 X2 X3 X4 X5 Y      yp_hat
1   2 33 36  1  0 0 0.696516124
2   0 20 40  1  0 1 0.133609671
3   2 38 37  1  0 1 0.898281343
4   0 16 37  1  0 0 0.067477642
5   2 24 38  1  1 0 0.231280950
6   0 20 39  1  0 0 0.151439337
7   8 39 12  1  0 1 0.695598791
8   9 36 38  1  0 0 0.008570323
9   5 29 41  1  0 0 0.023081807
10  0 28 16  1  0 1 0.982461249
11  2 26 39  1  0 0 0.154674344
12  0 25 41  1  0 1 0.372407412
13  0 23 33  1  0 0 0.512278063
14  4 29 32  1  0 0 0.175492706
15  2 22 36  1  0 0 0.079067562
16  2 22 40  1  0 0 0.045681253
17  7 24 32  1  0 0 0.003362373
18  3 35 38  1  1 1 0.768719050
19  1 28 36  0  0 1 0.999999999
20  2 25 42  0  0 1 0.999999980
> class<-table(data_logistik$Y,data_logistik$yp_hat>0.5)
> class
   
    FALSE TRUE
  0    10    2
  1     2    6

2.10 Uji Kelayakan Model

> #Uji Kelayakan Model
> ukl<-logitgof(data_logistik$Y,fitted(reglog))
> ukl

    Hosmer and Lemeshow test (binary model)

data:  data_logistik$Y, fitted(reglog)
X-squared = 3.8703, df = 8, p-value = 0.8686

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

> statdesk
      kode             Y             X1             X2              X3       
 Min.   : 1.00   Min.   :0.0   Min.   :0.00   Min.   :16.00   Min.   :12.00  
 1st Qu.: 5.75   1st Qu.:0.0   1st Qu.:0.00   1st Qu.:22.75   1st Qu.:35.25  
 Median :10.50   Median :0.0   Median :2.00   Median :25.50   Median :37.50  
 Mean   :10.50   Mean   :0.4   Mean   :2.55   Mean   :27.10   Mean   :35.15  
 3rd Qu.:15.25   3rd Qu.:1.0   3rd Qu.:3.25   3rd Qu.:30.00   3rd Qu.:39.25  
 Max.   :20.00   Max.   :1.0   Max.   :9.00   Max.   :39.00   Max.   :42.00  
       X4            X5     
 Min.   :0.0   Min.   :0.0  
 1st Qu.:1.0   1st Qu.:0.0  
 Median :1.0   Median :0.0  
 Mean   :0.9   Mean   :0.1  
 3rd Qu.:1.0   3rd Qu.:0.0  
 Max.   :1.0   Max.   :1.0  

Interpretasi :

  • 60% dari ibu hamil dalam penelitian ini mengalami anemia.

  • Sebagian besar jarak kehamilan berkisar antara 0 hingga 3.25 tahun, dengan beberapa observasi mencapai 9 tahun.

  • Usia ibu hamil bervariasi dari 16 hingga 39 tahun, dengan mayoritas berada antara 22.75 hingga 30 tahun.

  • Hampir semua ibu dalam penelitian ini tidak bersekolah.

  • Mayoritas ibu hamil dalam penelitian ini bekerja.

3.2 Uji Multikolinearitas

> vif_values
      X1       X2       X3       X4       X5 
4.389884 2.425809 3.015888 1.000000 1.201018 

Interpretasi :

Perhitungan VIF atau Variance Inflation Factors perlu dilakukan sebelum membentuk model regresi logistik biner. Perhitungan ini dilakukan pada setiap variabel prediktor. Berdasarkan output diatas, nilai VIF pada masing masing variabel prediktor menghasilkan nilai kurang dari 10, yang artinya masing-masing variabel prediktor tidak terjadi multikolinieritas antar variabel prediktor atau tidak saling berkorelasi. Sehingga data tersebut dapat digunakan.

3.3 Model Regresi Logistik

> reglog

Call:  glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_logistik)

Coefficients:
(Intercept)           X1           X2           X3          X41          X51  
    18.1534      -0.8837       0.2987      -0.1461     -20.1548       0.9487  

Degrees of Freedom: 19 Total (i.e. Null);  14 Residual
Null Deviance:      26.92 
Residual Deviance: 13.37    AIC: 25.37

\[ p=\frac{exp(18.1534-0.8837X_1+0.2987X_2-0.1461X_3-20.1548X_4+0.9487X_5)}{1+exp(18.1534-0.8837X_1+0.2987X_2-0.1461X_3-20.1548X_4+0.9487X_5)} \]

\[ g(x)=\ln \left ( \frac{\pi(x)}{1+\pi(x)}\right)=18.1534-0.8837X_1+0.2987X_2-0.1461X_3-20.1548X_4+0.9487X_5 \]

Interpretasi masing-masing parameter yaitu :

  • Ketika nilai seluruh variabel prediktor bernilai 0 (konstan) maka bertambah kejadian anemia pada ibu hamil sebesar 18.1534

  • Ketika nilai variabel (Jarak kehamilan) meningkat 1 satuan dan variabel prediktor lain bernilai konstan, maka terdapat berkurangnya kejadian ibu hamil sebesar 0.8837

  • Ketika nilai variabel (Usia Ibu) meningkat 1 satuan dan variabel prediktor lain bernilai konstan, maka terdapat bertambahnya kejadian ibu hamil sebesar 0.2987

  • Ketika nilai variabel (Usia Kehamilan) meningkat 1 satuan dan variabel prediktor lain bernilai konstan, maka terdapat berkurangnya kejadian ibu hamil sebesar 0.1461

  • Ketika nilai variabel (Pendidikan) meningkat 1 satuan dan variabel prediktor lain bernilai konstan, maka terdapat berkurangnya kejadian ibu hamil sebesar 20.1548

  • Ketika nilai variabel (Pekerjaan) meningkat 1 satuan dan variabel prediktor lain bernilai konstan, maka terdapat bertambahnya kejadian ibu hamil sebesar 0.9487

3.4 Uji Signifikansi Keseluruhan Model

Hipotesis :

\(H_{0}=\beta _{1}=\beta _ {2}=\ldots =\beta _{p}=0\)

\(H_{1}=\) Minimal terdapat satu variabel yang berpengaruh terhadap terjadinya anemia pada ibu hamil.

> pr2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
 -6.6845764 -13.4602333  13.5513138   0.5033833   0.4921482   0.6653108 
> qchisq
[1] 5.991465

Interpretasi :

Pada output di atas diperoleh nilai \(G^2\) sebesar 13.5513138 dengan nilai chi-square sebesar 5.991465. Berdasarkan hal tersebut mengartikan bahwa nilai lebih besar dibandingkan dengan nilai chi-square sehingga dapat diputuskan \(H_0\) ditolak. Maka dapat disimpulkan bahwa model signifikan atau minimal terdapat satu variabel yang berpengaruh terhadap terjadinya anemia pada ibu hamil.

3.5 Uji Parsial

Hipotesis :

\(H_{0}:\beta _{j}=0\)

\(H_{1}:\beta _{j}\neq 0\)

> parsial

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial, 
    data = data_logistik)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.5443  -0.5747  -0.1737   0.2569   2.0064  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)  
(Intercept)   18.1534  4129.1391   0.004   0.9965  
X1            -0.8837     0.5979  -1.478   0.1394  
X2             0.2987     0.1642   1.819   0.0689 .
X3            -0.1461     0.1460  -1.001   0.3170  
X41          -20.1548  4129.1323  -0.005   0.9961  
X51            0.9487     2.0160   0.471   0.6380  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26.920  on 19  degrees of freedom
Residual deviance: 13.369  on 14  degrees of freedom
AIC: 25.369

Number of Fisher Scoring iterations: 17

Berdasarkan output diatas diperoleh :

\(p-value<\alpha(0.05)\), sehingga tolak \(H_0\)

Interpretasi :

Dengan taraf nyata 5%, tidak terdapat variabel yang berpengaruh signifikan terhadap terjadinya anemia pada ibu hamil.

3.6 Odds Ratio

> beta
(Intercept)          X1          X2          X3         X41         X51 
 18.1533691  -0.8836617   0.2987133  -0.1460564 -20.1547907   0.9486779 
> OR_beta
 (Intercept)           X1           X2           X3          X41          X51 
7.654345e+07 4.132669e-01 1.348123e+00 8.641089e-01 1.765573e-09 2.582293e+00 
> OR
                   beta      OR_beta
(Intercept)  18.1533691 7.654345e+07
X1           -0.8836617 4.132669e-01
X2            0.2987133 1.348123e+00
X3           -0.1460564 8.641089e-01
X41         -20.1547907 1.765573e-09
X51           0.9486779 2.582293e+00

Interpretasi :

  • Untuk setiap peningkatan satu tahun dalam jarak kehamilan, peluang ibu mengalami anemia berkurang sekitar 58.7% (1 - 0.413 = 0.587 atau 58.7%). Nilai OR yang kurang dari 1 menunjukkan bahwa peningkatan jarak kehamilan mengurangi kemungkinan anemia.

  • Untuk setiap peningkatan satu tahun dalam usia ibu, peluang ibu mengalami anemia meningkat sekitar 34.8%. Nilai OR yang lebih dari 1 menunjukkan bahwa peningkatan usia ibu meningkatkan kemungkinan anemia.

  • Untuk setiap peningkatan satu minggu dalam usia kehamilan, peluang ibu mengalami anemia berkurang sekitar 13.6%. Nilai OR yang kurang dari 1 menunjukkan bahwa peningkatan usia kehamilan mengurangi kemungkinan anemia.

  • Ibu yang bersekolah memiliki odds yang jauh lebih rendah untuk mengalami anemia dibandingkan ibu yang tidak bersekolah. Penurunan odds yang sangat besar ini menunjukkan bahwa pendidikan memiliki dampak yang signifikan dalam mengurangi kemungkinan anemia.

  • Ibu yang bekerja memiliki odds mengalami anemia yang 2.58 kali lebih besar dibandingkan ibu yang tidak bekerja. Nilai OR yang lebih dari 1 menunjukkan bahwa pekerjaan meningkatkan kemungkinan anemia.

3.7 Ketepatan Hasil Klasifikasi Model

> class
   
    FALSE TRUE
  0    10    2
  1     2    6

Interpretasi :

  • Dari 12 amatan dengan Y=0, hanya 2 yang diklasifikasikan dengan benar.

  • Dari 8 amatan dengan Y=1, hanya 6 yang diklasifikasikan dengan benar.

  • Tingkat akurasi model sebesar 40%.

3.8 Uji Kelayakan Model

> ukl

    Hosmer and Lemeshow test (binary model)

data:  data_logistik$Y, fitted(reglog)
X-squared = 3.8703, df = 8, p-value = 0.8686

Hipotesis :

\(H_{0}=\) Model sesuai dengan data

\(H_{1}=\) Model tidak sesuai dengan data

Berdasarkan output diatas diperoleh :

\(p-value>\alpha(0.05)\), sehingga terima \(H_0\)

Interpretasi :

Dengan taraf nyata 5%, dapat disimpulkan bahwa model sesuai dengan data atau model yang terbentuk layak digunakan.

4 KESIMPULAN

Dari hasil analisis yang telah dilakukan dapat disimpulkan bahwa kejadian anemia pada ibu hamil di RSKD Ibu dan Anak Siti Fatimah Makassar tidak dipengaruhi oleh jarak kehamilan (tahun), usia ibu (tahun), usia kehamilan (minggu), pendidikan (sekolah/tidak sekolah), pekerjaan (bekerja/tidak bekerja).

5 DAFTAR PUSTAKA

  1. Handayani, R. (2017). “Penerapan Uji Parsial dalam Pengujian Signifikansi Parameter pada Model Regresi”. Jurnal Manajemen Indonesia, 17(1), 45-56.
  2. Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. John Wiley & Sons.
  3. Santoso, S. (2015). “Penggunaan Statistika Deskriptif dalam Analisis Data”. Jurnal Teknologi Informasi, 11(2), 123-130.
  4. Varamita, A. (2017). Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di Rskd Ibu dan Anak Siti Fatimah Makassar. Skripsi Universitas Negeri Makassar.
  5. Wooldridge, J. M. (2016). “Introductory Econometrics: A Modern Approach”. Cengage Learning.