Penerapan Analisis Regresi Logistik Biner untuk Mengetahui Faktor-Faktor yang Mempengaruhi Kanker Paru-Paru

An Nisa Dwi Setiarini

Mei 2022

1 PENDAHULUAN

1.1 Latar Belakang

Statistika merupakan ilmu atau sekumpulan metode yang digunakan dalam mengumpulkan, menyajikan, menganalisis, menginterpretasi, dan mempresentasikan data sehingga dapat memberikan atau menyajikan informasi yang berguna. Pada era ini, statistika dapat digunakan di berbagai bidang kehidupan salah satunya adalah bidang kesehatan.

Analisis regresi logistik adalah salah satu alat statistik yang digunakan untuk memodelkan antara variabel independen dan variabel dependen dengan ketentuan variabel dependen bersifat kategorik. Dalam model statistika dengan dua kategori, dengan variabel respon mengandung unsur “sukses” atau “gagal”.Data biner ini merupakan bentuk paling sederhana dari data kategori. Model yang paling sering digunakan untuk data dua kategori adalah regresi logistik biner

Kanker adalah suatu penyakit yang disebabkan oleh pertumbuhan sel-sel jaringan tubuh yang tidak normal. Sel-sel kanker akan berkembang dengan cepat, tidak terkendali, dan akan terus membelah diri, selanjutnya menyusup ke jaringan sekitarnya (invasive) dan terus menyebar melalui jaringan ikat, darah, dan menyerang organ-organ penting serta syaraf tulang belakang (Yudissanta dan Ratna, 2012). Terdapat beberapa macam penyakit kanker, salah satunya adalah kanker paru-paru. Kanker paru-paru merupakan penyakit dengan ciri khas adanya pertumbuhan sel yang tidak terkontrol pada jaringan paru-paru. Bila tidak dirawat, pertumbuhan sel ini dapat menyebar ke luar dari paruparu. Jika tidak ditanggapi dengan serius, akan dipastikan penderita kanker paru semakin lama akan semakin bertambah. Faktor-faktor risiko yang mempengaruhi kanker paru-paru adalah umur, jenis kelamin, konsumsi rokok, dan faktor lainnya. Untuk mengetahui faktor-faktor yang berpengaruh terhadap kanker paru-paru maka dibentuklah sebuah model yang dapat membantu penerapan hubungan kausal (sebab-akibat) antara dua atau lebih dua peubah yaitu model regresi logistik.

1.2 Statistika Deskriptif

Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan, pengolahan, dan penyajian suatu daya sehingga menghasilkan informasi yang bermanfaat. Statistika deskriptif merupakan ilmu statistika yang hanya menolah, menyajikan data tanpa mengambil keputusan untuk populasi. Statistika deskriptif hanya melihat gambaran secara umum dari data yang didapatkan (Walpole, 1997). Statistika deskriptif ditunjukkan melalui ukuran penyebaran data, ukuran pemusatan data, grafik, diagram, histogram, dan lain-lain untuk memberikan informasi yang mudah dipahami.

1.3 Regresi Logistik Biner

Menurut Widarjono (2010), regresi adalah analisis yang menjelaskan bagaimana satu variabel yaitu variabel dependen dipengaruhi oleh satu atau lebih variabel lain yaitu variabel independen dengan tujuan untuk memprediksi nilai rata-rata variabel dependen yang didasarkan pada nilai variabel independen. Banyak kasus dalam analisis regresi dimana variabel responnya bersifat kualitatif. Variabel respon ini dapat berupa dua kategori (nominal), lebih dari 2 kategori (multinomial), atau kategori bertingkat (ordinal). Agresti (2007) menyatakan bahwa variabel dalam regresi logistik dapat berupa kategori atau kualitatif. Menurut Hosmer dan Lemeshow (2000), tujuan melakukan analisis data menggunakan regresi logistik adalah untuk mendapatkan model terbaik dan sederhana, namun model tersebut sejalan dengan tinjauan dari ilmu biologi untuk menjelaskan hubungan di antara hasil variabel respon dengan variabel prediktor.

Regresi logistik biner adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara variabel respon (y) yang bersifat biner (dichotomus) dengan variabel prediktor (x) yang bersifat kategorik atau kontinu. Hasil respon variabel dichotomus memiliki dua kriteria, yaitu:

  • y = 1 mewakili kemungkinan sukses dengan probabilitas \(\pi (x)\)

  • y = 0 mewakili kemungkinan gagal dengan probabilitas \(1 - \pi(x)\)

dengan variabel respon (y) mengikuti distribusi Bernoulli untuk setiap observasi tunggal.

1.4 Data

Data yang digunakan adalah data sekunder. Data sekunder merupakan sumber data penelitian yang diperoleh peneliti secara tidak langsung melalui media perantara (diperoleh dan dicatat oleh pihak lain) (Indrianto dan Supomo, 2013).

Dalam analisis ini, data sekunder diperoleh dari situs kaggle yaitu data perokok dan kanker paru-paru. Data ini memuat 12 variabel dan 59 amatan, namun hanya 8 variabel yang akan digunakan. Kedelapan variabel tersebut terdiri atas 7 variabel independen dan 1 variabel dependen dengan 2 kategori, diantaranya:

  • X1 = Jenis Kelamin (M = Pria, F = Wanita)

  • X2 = Usia (dalam tahun)

  • X3 = Perokok Aktif (0 = Tidak, 1 = Ya)

  • X4 = Konsumsi Alkohol (0 = Tidak, 1 = Ya)

  • X5 = Gejala Batuk (0 = Tidak, 1 = Ya)

  • X6 = Kesulitan Menelan (0 = Tidak, 1 = Ya)

  • X7 = Sakit Dada (0 = Tidak, 1 = Ya)

  • Y = Hasil Tes Kanker (No = Negatif, Yes = Positif)

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> # Library
> library(plotrix)
> library(car)

Library yang digunakan adalah plotrix sebagai package untuk membentuk pie chart dan car untuk menghitung VIF masing-masing prediktor.

2.2 Memanggil Data dan Membentuk Data Frame

> data = read.csv("D:/lung cancer.csv", header = TRUE, sep = ",")
> 
> X1 = as.factor(data$GENDER)
> X2 = data$AGE
> X3 = as.factor(data$SMOKING)
> X4 = as.factor(data$ALCOHOL.CONSUMING)
> X5 = as.factor(data$COUGHING)
> X6 = as.factor(data$SWALLOWING.DIFFICULTY)
> X7 = as.factor(data$CHEST.PAIN)
> Y = as.factor(data$LUNG_CANCER)
> df = data.frame(X1,X2,X3,X4,X5,X6,X7,Y)
> str(df)  
'data.frame':   309 obs. of  8 variables:
 $ X1: Factor w/ 2 levels "F","M": 2 2 1 2 1 1 2 1 1 2 ...
 $ X2: int  69 74 59 63 63 75 52 51 68 53 ...
 $ X3: Factor w/ 2 levels "1","2": 1 2 1 2 1 1 2 2 2 2 ...
 $ X4: Factor w/ 2 levels "1","2": 2 1 1 2 1 1 2 1 1 2 ...
 $ X5: Factor w/ 2 levels "1","2": 2 1 2 1 2 2 2 1 1 1 ...
 $ X6: Factor w/ 2 levels "1","2": 2 2 1 2 1 1 1 2 1 2 ...
 $ X7: Factor w/ 2 levels "1","2": 2 2 2 2 1 1 2 1 1 2 ...
 $ Y : Factor w/ 2 levels "NO","YES": 2 2 1 1 1 2 2 2 1 2 ...

Data dipanggil dengan perintah read.csv() dengan ketentuan baris pertama sebagai identitas variabel yang ditandai dengan header = TRUE dan setiap kolom dipisahkan dengan tanda koma (,). Gambaran banyaknya observasi dan karakteristik variabel ditampilkan dengan perintah str().

2.3 Pie Chart Proporsi Pasien

> CANCER = table(df$Y) 
> CANCER

 NO YES 
 39 270 
> kat = c("Negatif = ","Positif = ") 
> persentase = round(CANCER/sum(CANCER)*100) 
> kat = paste(kat,persentase)
> kat = paste(kat,'%',sep ='')
> pie3D(CANCER,labels=kat,col=c('light blue','blue'),
+       main="Persentase Kanker Paru-Paru")

Pembentukkan pie chart 3D dilakukan dengan membentuk tabel kategori dari respon Y dengan nama CANCER. Setelah ditabulasikan, membentuk kategori Negatif dan Positif, serta menghitung presentase pada setiap kategori yang nantinya menentukan luasan pie chart dengan perintah round(). Selanjutnya membentuk pie chart 3D dengan data yang divisualisasikan adalah CANCER.

2.4 Histogram Hasil Tes Kanker Berdasarkan Jenis Kelamin

> counts = table(df$Y,df$X1)
> barplot(counts, main="Sebaran Hasil Tes Kanker berdasarkan Jenis Kelamin",
+         xlab=" ", col=c("black","grey"),legend=rownames(counts), beside=TRUE)

Sebelum membentuk histogram, dibentuk tabulasi data terlebih dahulu untuk menghitung banyaknya kategori pada variabel Y yang merupakan laki-laki dan perempuan dengan perintah table(). Pembentukkan histogram dilakukan dengan perintah barplot().

2.5 Analisis Regresi Logistik

> model = glm(Y~X1+X2+X3+X4+X5+X6+X7, data = df, family = binomial)
> summary(model)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7, family = binomial, 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.0383   0.1055   0.2011   0.4007   1.5245  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.44641    1.53995  -1.589 0.112145    
X1M         -0.96967    0.49056  -1.977 0.048079 *  
X2           0.02779    0.02336   1.190 0.234212    
X32          1.10066    0.45464   2.421 0.015481 *  
X42          1.97171    0.53225   3.704 0.000212 ***
X52          1.69577    0.47465   3.573 0.000353 ***
X62          2.41018    0.56028   4.302 1.69e-05 ***
X72          0.78831    0.47390   1.663 0.096224 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.30  on 308  degrees of freedom
Residual deviance: 157.25  on 301  degrees of freedom
AIC: 173.25

Number of Fisher Scoring iterations: 6

Pembentukan model regresi logistik dilakukan dengan menggunakan perintah glm() yang nantinya disimpan dengan nama model. Untuk memunculkan ringkasan dari model yang telah dibentuk, digunakan perintah summary().

> beta = coef(model)
> OR = exp(beta)
> SK = exp(confint(model))
> cbind(beta, OR, SK)
                   beta          OR       2.5 %     97.5 %
(Intercept) -2.44641036  0.08660391 0.003802901  1.7209923
X1M         -0.96967193  0.37920742 0.140046689  0.9704801
X2           0.02779245  1.02818226 0.982480914  1.0780601
X32          1.10066043  3.00615073 1.264684989  7.6234791
X42          1.97170560  7.18291720 2.658621777 21.8870535
X52          1.69577019  5.45084255 2.211022659 14.4065883
X62          2.41018064 11.13597258 4.066173708 37.7842280
X72          0.78831024  2.19967635 0.880374750  5.7280566

Selanjutnya, koefisien penduga disimpan dalam vektor beta dengan perintah coef(). Setelah itu, menghitung Odds ratio bagi masing-masing penduga parameter dengan menggunakan perhitungan exp() dan menentukan selang kepercayaan bagi Odds ratio menggunakan perintah confint().

Untuk mengetahui nilai VIF bagi masing-masing prediktor, digunakan perintah vif() dari package car seperti di bawah.

> vif(model)
      X1       X2       X3       X4       X5       X6       X7 
1.422645 1.052037 1.232859 1.263148 1.224943 1.125771 1.252044 

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Berdasarkan Data yang digunakan, diperoleh pie chart bagi hasil tes kanker sebagai berikut.


 NO YES 
 39 270 

Dari pie chart di atas, dapat diketahui bahwa terdapat 87% orang mendapat hasil positif setelah melakukan tes kanker paru-paru. Sisanya sebanyak 13% mendapat hasil negatif. Untuk mengetahui banyaknya orang dengan hasil tes positif berdasarkan jenis kelamin, kemudian dibentuk histogram sebagai berikut.

Dari histogram di atas, dapat dilihat bahwa laki-laki memiliki frekuensi hasil tes positif yang lebih banyak daripada perempuan. Dari histogram di atas pula dapat diketahui bahwa perempuan memiliki frekuensi hasil tes negatif yang lebih banyak dari laki-laki.

3.2 Analisis Regresi Logistik Biner

Pemodelan Analisis Regresi Logistik Biner menghasilkan output sebagai berikut.


Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7, family = binomial, 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.0383   0.1055   0.2011   0.4007   1.5245  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.44641    1.53995  -1.589 0.112145    
X1M         -0.96967    0.49056  -1.977 0.048079 *  
X2           0.02779    0.02336   1.190 0.234212    
X32          1.10066    0.45464   2.421 0.015481 *  
X42          1.97171    0.53225   3.704 0.000212 ***
X52          1.69577    0.47465   3.573 0.000353 ***
X62          2.41018    0.56028   4.302 1.69e-05 ***
X72          0.78831    0.47390   1.663 0.096224 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 234.30  on 308  degrees of freedom
Residual deviance: 157.25  on 301  degrees of freedom
AIC: 173.25

Number of Fisher Scoring iterations: 6

3.2.1 Uji Keberartian Parameter

Pengujian bagi parameter \(\beta_i\) dilakukan menggunakan uji Wald dengan hipotesis sebagai berikut:

H0: \(\beta_i=0\) (Parameter tidak signifikan terhadap model)

H1: \(\beta_i\ne0\) (Parameter signifikan terhadap model)

Dari output di atas, diperoleh p-value bagi statistik uji Wald pada penduga intersep, koefisien \(x_2\), dan \(x_7\) lebih besar dari \(\alpha\)(0,05), didapat keputusan terima H0. Sedangkan penduga koefisien \(x_1\), \(x_3\), \(x_4\), \(x_5\), dan \(x_6\) lebih kecil dari \(\alpha\)(0,05). Dengan demikian dapat disimpulkan bahwa hanya penduga koefisien \(x_1\), \(x_3\), \(x_4\), \(x_5\), dan \(x_6\) yang berpengaruh signifikan terhadap perolehan nilai model.

3.2.2 Goodness of Fit Model

Dari output di atas, diperoleh nilai \(G_0^2\) sebesar 234,30 dan \(G_1^2\) sebesar 157,25. Dari output ini kemudian dihitung nilai koefisien determinasi sebagai berikut.

[1] 0.3288519

Sehingga dari hasil perhitungan koefisien determinasi, didapatkan kesimpulan bahwa hanya 32,88% hasil tes kanker paru-paru yang dapat dijelaskan oleh variabel Jenis Kelamin, Usia, Perokok Aktif, Konsumsi Alkohol, Gejala Batuk, Kesulitan Menelan, dan Sakit Dada sedangkan sisanya dijelaskan oleh variabel lain.

3.2.3 Interpretasi Model

Dari model dan penduga koefisien yang terbentuk diperoleh nilai Odds ratio bagi masing-masing penduga sebagai berikut.

                   beta          OR       2.5 %     97.5 %
(Intercept) -2.44641036  0.08660391 0.003802901  1.7209923
X1M         -0.96967193  0.37920742 0.140046689  0.9704801
X2           0.02779245  1.02818226 0.982480914  1.0780601
X32          1.10066043  3.00615073 1.264684989  7.6234791
X42          1.97170560  7.18291720 2.658621777 21.8870535
X52          1.69577019  5.45084255 2.211022659 14.4065883
X62          2.41018064 11.13597258 4.066173708 37.7842280
X72          0.78831024  2.19967635 0.880374750  5.7280566

Dari output di atas, nilai odds ratio dapat diinterpretasikan sebagai berikut.

  • Nilai odds ratio pada intersep bernilai 0,0866. Hal ini berarti bahwa apabila faktor lain dianggap konstan, maka peluang seseorang memperoleh hasil tes kanker positif 0,0866 kali peluang negatif.

  • Nilai odds ratio pada koefisien \(x_1\) bernilai 0,379. Hal ini berarti bahwa seseorang dengan jenis kelamin laki-laki memiliki peluang mendapat hasil tes kanker positif 0,379 kali lebih besar dari perempuan.

  • Nilai odds ratio pada koefisien \(x_2\) bernilai 1,028. Hal ini berarti bahwa setiap peningkatan 1 tahun umur seseorang dapat menambah peluang mendapat hasil tes kanker positif 1,028 kali lebih besar.

  • Nilai odds ratio pada koefisien \(x_3\) bernilai 3,006. Hal ini berarti bahwa seorang perokok aktif memiliki peluang mendapat hasil tes kanker positif 3,006 kali lebih besar dari perokok pasif/tidak merokok.

  • Nilai odds ratio pada koefisien \(x_4\) bernilai 7,183. Hal ini berarti bahwa seseorang yang aktif mengonsumsi alkohol memiliki peluang mendapat hasil tes kanker positif 7,183 kali lebih besar dari seseorang yang tidak mengonsumsi alkohol.

  • Nilai odds ratio pada koefisien \(x_5\) bernilai 5,45. Hal ini berarti bahwa seorang dengan gejala batuk memiliki peluang mendapat hasil tes kanker positif 5,45 kali lebih besar dari seseorang tanpa gejala batuk.

  • Nilai odds ratio pada koefisien \(x_6\) bernilai 11,136. Hal ini berarti bahwa seorang dengan gejala kesulitan menelan memiliki peluang mendapat hasil tes kanker positif 11,136 kali lebih besar dari seseorang tanpa gejala.

  • Nilai odds ratio pada koefisien \(x_7\) bernilai 2,199. Hal ini berarti bahwa seorang dengan gejala sakit dada memiliki peluang mendapat hasil tes kanker positif 2,199 kali lebih besar dari seseorang tanpa gejala.

4 DAFTAR PUSTAKA

Agresti, A. (2007). Categorical Data Analysis. John Willey & Sons.New York.

Hosmer, D. W. dan Lemeshow, S., (2000), Applied Logistic Regression. John Willey and Sons, Inc. New York.

Indriantoro, Nur dan Bambang Supomo. (2013). Metodologi Penelitian Bisnis Untuk Akuntansi Dan Manajemen. Yogyakarta: BPFE

Yudissanta, Arief dan Ratna, Madu. (2012). Analisis Pemakaian Kemoterapi pada Kasus Kanker Payudara dengan Menggunakan Metode Regresi Logistik Multinomial (Studi Kasus Pasien di Rumah Sakit “X” Surabaya). JURNAL SAINS DAN SENI ITS Vol. 1, No. 1. D112-117

Walpole, R. (1997). Pengantar Metode Statistik Edisi ke-3. Jakarta: PT Gramedia Pustaka Utama.

Widarjono, Agus. (2010). Analisis Statistika Multivariat Terapan. Edisi pertama. Yogyakarta: UPP STIM YKPN

Sumber data : https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer