1 PENDAHULUAN

1.1 Latar Belakang

Statistika merupakan salah satu cabang ilmu yang mempelajari cara pengumpulan, pengolahan, penyajian, analisis, serta interpretasi data untuk menghasilkan informasi yang dapat digunakan dalam pengambilan keputusan. Seiring dengan perkembangan ilmu pengetahuan dan teknologi, penerapan statistika semakin luas, termasuk dalam bidang kesehatan. Dalam bidang ini, statistika berperan penting untuk membantu memahami pola penyakit, mengidentifikasi faktor risiko, serta mendukung pengambilan keputusan berbasis data.

Salah satu permasalahan kesehatan yang hingga saat ini masih menjadi perhatian di tingkat global adalah kanker payudara. Kanker payudara merupakan penyakit tidak menular yang ditandai dengan pertumbuhan sel abnormal pada jaringan payudara, yang dapat bersifat jinak maupun ganas. Berdasarkan laporan World Health Organization (WHO), kanker payudara menjadi salah satu penyebab utama kematian akibat kanker pada perempuan di seluruh dunia, dengan jumlah kasus yang cenderung meningkat setiap tahunnya (World Health Organization, 2023).

Tingginya angka kejadian kanker payudara menunjukkan pentingnya upaya deteksi dini dan pemahaman terhadap faktor-faktor yang berhubungan dengan keganasan kanker tersebut. Diagnosis kanker payudara tidak hanya ditentukan oleh keberadaan benjolan, tetapi juga dipengaruhi oleh berbagai karakteristik sel yang dapat diamati melalui pemeriksaan medis, seperti ukuran sel, tekstur, perimeter, dan tingkat ketidakteraturan bentuk sel. Karakteristik-karakteristik tersebut dapat digunakan sebagai indikator untuk membedakan tumor yang bersifat jinak dan ganas.

Dalam konteks ini, analisis statistik menjadi alat yang penting untuk mengkaji hubungan antara karakteristik sel dengan diagnosis kanker payudara. Melalui penerapan metode statistik yang sesuai, data medis dapat dianalisis untuk mengetahui faktor-faktor yang berpengaruh terhadap kemungkinan keganasan kanker payudara. Oleh karena itu, diperlukan suatu metode analisis yang mampu memodelkan hubungan antara variabel-variabel karakteristik sel dengan variabel diagnosis yang bersifat dikotomis. Salah satu metode yang dapat digunakan untuk tujuan tersebut adalah analisis regresi logistik biner.

1.2 Tinjauan Pustaka

1.2.1 Statistika Deskriptif

Statistik deskriptif merupakan metode statistik yang digunakan untuk menggambarkan karakteristik data yang telah dikumpulkan tanpa melakukan penarikan kesimpulan yang bersifat umum atau generalisasi terhadap populasi. Tujuan utama dari statistik deskriptif adalah memberikan ringkasan data melalui ukuran pemusatan dan penyebaran, sehingga data dapat dipahami dengan lebih mudah (Sugiyono, 2017).

Dalam penelitian di bidang kesehatan, statistik deskriptif umumnya digunakan sebagai tahap awal analisis untuk mengetahui gambaran umum data yang diteliti. Informasi seperti nilai rata-rata, median, simpangan baku, serta nilai minimum dan maksimum dapat memberikan pemahaman awal mengenai distribusi data. Selain itu, penyajian data dalam bentuk visualisasi seperti histogram, boxplot, atau diagram batang dapat membantu mengidentifikasi pola data maupun keberadaan pencilan sebelum dilakukan analisis lanjutan.

1.2.2 Analisis Regresi Logistik Biner

Regresi logistik merupakan salah satu metode analisis statistik yang digunakan untuk memodelkan hubungan antara variabel respon dan satu atau lebih variabel penjelas. Berbeda dengan regresi linear yang menggunakan variabel respon berskala kontinu, regresi logistik digunakan ketika variabel respon bersifat kategorik. Regresi logistik biner secara khusus digunakan pada variabel respon yang memiliki dua kategori atau bersifat dikotomis, yang umumnya dikodekan sebagai 0 dan 1 (Hosmer, Lemeshow, & Sturdivant, 2013).

Dalam bidang kesehatan, regresi logistik biner sering digunakan untuk menganalisis faktor risiko suatu penyakit. Metode ini memungkinkan peneliti untuk memperkirakan probabilitas terjadinya suatu kejadian berdasarkan variabel-variabel penjelas yang digunakan. Hasil dari analisis regresi logistik biner dapat diinterpretasikan dalam bentuk odds ratio, yang menunjukkan besarnya perubahan peluang terjadinya suatu kejadian akibat perubahan satu satuan pada variabel penjelas, dengan asumsi variabel lain dianggap konstan.

Penggunaan regresi logistik biner dalam analisis kanker payudara sangat relevan, mengingat diagnosis kanker payudara diklasifikasikan ke dalam dua kategori, yaitu jinak dan ganas. Melalui metode ini, hubungan antara karakteristik sel hasil pemeriksaan medis dengan diagnosis kanker payudara dapat dianalisis secara kuantitatif. Informasi yang diperoleh dari analisis regresi logistik biner diharapkan dapat memberikan gambaran yang lebih jelas mengenai faktor-faktor yang berhubungan dengan keganasan kanker payudara serta mendukung upaya deteksi dini dan pengambilan keputusan klinis.

Secara umum, model regresi logistik biner dinyatakan dalam bentuk fungsi logit sebagai berikut:

\[ \text{logit}(\pi(x)) = \ln\left(\frac{\pi(x)}{1 - \pi(x)}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p \]

dengan \(\pi(x)\) menyatakan peluang terjadinya diagnosis kanker payudara ganas.

1.3 Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang berasal dari Breast Cancer Wisconsin (Diagnostic) Dataset. Dataset ini dikembangkan dan dipublikasikan oleh UCI Machine Learning Repository dan banyak digunakan dalam penelitian serta pembelajaran di bidang kesehatan dan statistika. Dataset ini dapat diakses secara bebas melalui laman resmi UCI Machine Learning Repository pada alamat berikut:

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

Pada penelitian ini, data diperoleh melalui repositori GitHub yang menyediakan salinan dataset tersebut untuk keperluan analisis menggunakan perangkat lunak R.

Dataset ini berisi data hasil pemeriksaan Fine Needle Aspiration (FNA) pada jaringan payudara yang digunakan untuk mengklasifikasikan kanker payudara ke dalam dua kategori, yaitu kanker payudara jinak (benign) dan kanker payudara ganas (malignant). Setiap observasi merepresentasikan satu pasien dengan sejumlah karakteristik morfologi sel yang diukur secara kuantitatif.

Dataset terdiri dari 569 observasi dengan 30 variabel numerik yang merepresentasikan karakteristik morfologi sel, seperti ukuran, tekstur, perimeter, luas area, dan tingkat ketidakteraturan bentuk sel. Pada analisis regresi logistik biner ini, tidak seluruh variabel digunakan. Penelitian ini hanya menggunakan satu variabel dependen dan lima variabel independen yang dipilih berdasarkan relevansi klinis serta kemudahan interpretasi model.

Variabel yang digunakan dalam penelitian ini adalah sebagai berikut:

Variabel dependen (Y):
Y = diagnosis
(1 = Malignant / ganas, 0 = Benign / jinak)

Variabel independen:
X1 = radius_mean
X2 = texture_mean
X3 = perimeter_mean
X4 = area_mean
X5 = smoothness_mean

2 DATA dan METODOLOGI

2.1 Library

library(readr)
library(dplyr)
library(ggplot2)
library(plotrix)

Library yang digunakan dalam penelitian ini meliputi readr untuk membaca data berformat CSV, dplyr untuk pengolahan data, serta ggplot2 untuk visualisasi data serta plotrix untuk pembuatan visualisasi diagram lingkaran tiga dimensi.

2.2 Input Data

Data dimasukkan ke dalam R menggunakan fungsi read_csv(). Struktur data ditampilkan untuk memastikan bahwa seluruh variabel telah terbaca dengan benar.

data <- read_csv("BreastCancer.csv")
## Rows: 569 Columns: 32
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (1): diagnosis
## dbl (31): id, radius_mean, texture_mean, perimeter_mean, area_mean, smoothne...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
str(data)
## spc_tbl_ [569 × 32] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id                     : num [1:569] 842302 842517 84300903 84348301 84358402 ...
##  $ diagnosis              : chr [1:569] "M" "M" "M" "M" ...
##  $ radius_mean            : num [1:569] 18 20.6 19.7 11.4 20.3 ...
##  $ texture_mean           : num [1:569] 10.4 17.8 21.2 20.4 14.3 ...
##  $ perimeter_mean         : num [1:569] 122.8 132.9 130 77.6 135.1 ...
##  $ area_mean              : num [1:569] 1001 1326 1203 386 1297 ...
##  $ smoothness_mean        : num [1:569] 0.1184 0.0847 0.1096 0.1425 0.1003 ...
##  $ compactness_mean       : num [1:569] 0.2776 0.0786 0.1599 0.2839 0.1328 ...
##  $ concavity_mean         : num [1:569] 0.3001 0.0869 0.1974 0.2414 0.198 ...
##  $ concave points_mean    : num [1:569] 0.1471 0.0702 0.1279 0.1052 0.1043 ...
##  $ symmetry_mean          : num [1:569] 0.242 0.181 0.207 0.26 0.181 ...
##  $ fractal_dimension_mean : num [1:569] 0.0787 0.0567 0.06 0.0974 0.0588 ...
##  $ radius_se              : num [1:569] 1.095 0.543 0.746 0.496 0.757 ...
##  $ texture_se             : num [1:569] 0.905 0.734 0.787 1.156 0.781 ...
##  $ perimeter_se           : num [1:569] 8.59 3.4 4.58 3.44 5.44 ...
##  $ area_se                : num [1:569] 153.4 74.1 94 27.2 94.4 ...
##  $ smoothness_se          : num [1:569] 0.0064 0.00522 0.00615 0.00911 0.01149 ...
##  $ compactness_se         : num [1:569] 0.049 0.0131 0.0401 0.0746 0.0246 ...
##  $ concavity_se           : num [1:569] 0.0537 0.0186 0.0383 0.0566 0.0569 ...
##  $ concave points_se      : num [1:569] 0.0159 0.0134 0.0206 0.0187 0.0188 ...
##  $ symmetry_se            : num [1:569] 0.03 0.0139 0.0225 0.0596 0.0176 ...
##  $ fractal_dimension_se   : num [1:569] 0.00619 0.00353 0.00457 0.00921 0.00511 ...
##  $ radius_worst           : num [1:569] 25.4 25 23.6 14.9 22.5 ...
##  $ texture_worst          : num [1:569] 17.3 23.4 25.5 26.5 16.7 ...
##  $ perimeter_worst        : num [1:569] 184.6 158.8 152.5 98.9 152.2 ...
##  $ area_worst             : num [1:569] 2019 1956 1709 568 1575 ...
##  $ smoothness_worst       : num [1:569] 0.162 0.124 0.144 0.21 0.137 ...
##  $ compactness_worst      : num [1:569] 0.666 0.187 0.424 0.866 0.205 ...
##  $ concavity_worst        : num [1:569] 0.712 0.242 0.45 0.687 0.4 ...
##  $ concave points_worst   : num [1:569] 0.265 0.186 0.243 0.258 0.163 ...
##  $ symmetry_worst         : num [1:569] 0.46 0.275 0.361 0.664 0.236 ...
##  $ fractal_dimension_worst: num [1:569] 0.1189 0.089 0.0876 0.173 0.0768 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   id = col_double(),
##   ..   diagnosis = col_character(),
##   ..   radius_mean = col_double(),
##   ..   texture_mean = col_double(),
##   ..   perimeter_mean = col_double(),
##   ..   area_mean = col_double(),
##   ..   smoothness_mean = col_double(),
##   ..   compactness_mean = col_double(),
##   ..   concavity_mean = col_double(),
##   ..   `concave points_mean` = col_double(),
##   ..   symmetry_mean = col_double(),
##   ..   fractal_dimension_mean = col_double(),
##   ..   radius_se = col_double(),
##   ..   texture_se = col_double(),
##   ..   perimeter_se = col_double(),
##   ..   area_se = col_double(),
##   ..   smoothness_se = col_double(),
##   ..   compactness_se = col_double(),
##   ..   concavity_se = col_double(),
##   ..   `concave points_se` = col_double(),
##   ..   symmetry_se = col_double(),
##   ..   fractal_dimension_se = col_double(),
##   ..   radius_worst = col_double(),
##   ..   texture_worst = col_double(),
##   ..   perimeter_worst = col_double(),
##   ..   area_worst = col_double(),
##   ..   smoothness_worst = col_double(),
##   ..   compactness_worst = col_double(),
##   ..   concavity_worst = col_double(),
##   ..   `concave points_worst` = col_double(),
##   ..   symmetry_worst = col_double(),
##   ..   fractal_dimension_worst = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

2.3 Preprocessing Data

Pada tahap preprocessing data dilakukan pemeriksaan terhadap kualitas data yang digunakan dalam penelitian. Pemeriksaan meliputi keberadaan data hilang (missing value) serta data duplikat pada seluruh variabel yang terdapat dalam dataset. Tahap ini bertujuan untuk memastikan bahwa data berada dalam kondisi baik dan layak digunakan sehingga hasil analisis regresi logistik biner yang diperoleh tidak dipengaruhi oleh permasalahan data.

# Mengecek jumlah missing value pada setiap variabel
colSums(is.na(data))
##                      id               diagnosis             radius_mean 
##                       0                       0                       0 
##            texture_mean          perimeter_mean               area_mean 
##                       0                       0                       0 
##         smoothness_mean        compactness_mean          concavity_mean 
##                       0                       0                       0 
##     concave points_mean           symmetry_mean  fractal_dimension_mean 
##                       0                       0                       0 
##               radius_se              texture_se            perimeter_se 
##                       0                       0                       0 
##                 area_se           smoothness_se          compactness_se 
##                       0                       0                       0 
##            concavity_se       concave points_se             symmetry_se 
##                       0                       0                       0 
##    fractal_dimension_se            radius_worst           texture_worst 
##                       0                       0                       0 
##         perimeter_worst              area_worst        smoothness_worst 
##                       0                       0                       0 
##       compactness_worst         concavity_worst    concave points_worst 
##                       0                       0                       0 
##          symmetry_worst fractal_dimension_worst 
##                       0                       0
# Mengecek jumlah baris duplikat pada dataset
jumlah_duplikat <- sum(duplicated(data))
jumlah_duplikat
## [1] 0
# Mengecek kembali jumlah baris data
nrow(data)
## [1] 569

Berdasarkan hasil pemeriksaan, tidak ditemukan nilai hilang (missing value) pada seluruh variabel yang digunakan dalam penelitian. Selain itu, hasil pengecekan data duplikat menunjukkan bahwa tidak terdapat observasi yang terduplikasi dalam dataset.

Dengan demikian, data yang digunakan telah memenuhi syarat untuk dilakukan analisis lebih lanjut tanpa memerlukan proses pembersihan data tambahan, dan seluruh observasi dapat langsung digunakan pada tahap analisis regresi logistik biner.

2.4 Seleksi Variabel dan Pembentukan Data Frame

Pada tahap ini dilakukan pengkodean variabel diagnosis menjadi variabel biner serta pemilihan variabel yang digunakan dalam analisis regresi logistik biner. Variabel independen dipilih berdasarkan relevansi klinis dan kemudahan interpretasi model.

# Mengubah variabel diagnosis menjadi biner
# 1 = Malignant (ganas), 0 = Benign (jinak)
data$diagnosis <- ifelse(data$diagnosis == "M", 1, 0)

# Membentuk data frame analisis dengan variabel terpilih
df <- data %>%
  select(
    diagnosis,
    radius_mean,
    texture_mean,
    perimeter_mean,
    area_mean,
    smoothness_mean
  )

# Menampilkan struktur data hasil seleksi
str(df)
## tibble [569 × 6] (S3: tbl_df/tbl/data.frame)
##  $ diagnosis      : num [1:569] 1 1 1 1 1 1 1 1 1 1 ...
##  $ radius_mean    : num [1:569] 18 20.6 19.7 11.4 20.3 ...
##  $ texture_mean   : num [1:569] 10.4 17.8 21.2 20.4 14.3 ...
##  $ perimeter_mean : num [1:569] 122.8 132.9 130 77.6 135.1 ...
##  $ area_mean      : num [1:569] 1001 1326 1203 386 1297 ...
##  $ smoothness_mean: num [1:569] 0.1184 0.0847 0.1096 0.1425 0.1003 ...

2.5 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data yang digunakan dalam penelitian.

summary(df)
##    diagnosis       radius_mean      texture_mean   perimeter_mean  
##  Min.   :0.0000   Min.   : 6.981   Min.   : 9.71   Min.   : 43.79  
##  1st Qu.:0.0000   1st Qu.:11.700   1st Qu.:16.17   1st Qu.: 75.17  
##  Median :0.0000   Median :13.370   Median :18.84   Median : 86.24  
##  Mean   :0.3726   Mean   :14.127   Mean   :19.29   Mean   : 91.97  
##  3rd Qu.:1.0000   3rd Qu.:15.780   3rd Qu.:21.80   3rd Qu.:104.10  
##  Max.   :1.0000   Max.   :28.110   Max.   :39.28   Max.   :188.50  
##    area_mean      smoothness_mean  
##  Min.   : 143.5   Min.   :0.05263  
##  1st Qu.: 420.3   1st Qu.:0.08637  
##  Median : 551.1   Median :0.09587  
##  Mean   : 654.9   Mean   :0.09636  
##  3rd Qu.: 782.7   3rd Qu.:0.10530  
##  Max.   :2501.0   Max.   :0.16340

Berdasarkan hasil statistik deskriptif, variabel diagnosis menunjukkan bahwa nilai rata-rata sebesar 0,3726, yang mengindikasikan bahwa sekitar 37,26% observasi termasuk dalam kategori kanker payudara ganas, sedangkan sisanya merupakan kanker payudara jinak. Hal ini menunjukkan bahwa dataset didominasi oleh kasus kanker payudara jinak.

Untuk variabel radius mean, diperoleh nilai rata-rata sebesar 14,13 dengan rentang nilai antara 6,98 hingga 28,11. Nilai ini menggambarkan variasi ukuran sel yang cukup besar antar pasien. Variabel texture mean memiliki nilai rata-rata sebesar 19,29 dengan nilai minimum 9,71 dan maksimum 39,28, yang menunjukkan perbedaan tingkat kehalusan atau kekasaran tekstur sel pada jaringan payudara.

Variabel perimeter mean memiliki nilai rata-rata sebesar 91,97 dengan rentang nilai antara 43,79 hingga 188,50. Hal ini menunjukkan adanya variasi yang cukup lebar pada ukuran keliling sel. Sementara itu, area mean memiliki nilai rata-rata sebesar 654,9 dengan nilai maksimum mencapai 2501, yang mengindikasikan adanya observasi dengan ukuran area sel yang jauh lebih besar dibandingkan sebagian besar data lainnya.

Pada variabel smoothness mean, nilai rata-rata sebesar 0,096 menunjukkan tingkat kehalusan permukaan sel yang relatif kecil dengan variasi yang tidak terlalu besar dibandingkan variabel ukuran lainnya. Secara keseluruhan, hasil statistik deskriptif ini memberikan gambaran awal bahwa karakteristik morfologi sel memiliki variasi yang cukup signifikan, sehingga berpotensi berpengaruh dalam membedakan diagnosis kanker payudara jinak dan ganas.

df$diagnosis_f <- factor(
  df$diagnosis,
  levels = c(0, 1),
  labels = c("Jinak", "Ganas")
)

2.6 Distribusi Diagnosis Kanker Payudara

Visualisasi distribusi diagnosis dilakukan untuk melihat perbandingan jumlah kasus kanker jinak dan ganas dalam dataset.

ggplot(df, aes(x = diagnosis_f)) +
  geom_bar(fill = "steelblue") +
  labs(
    x = "Diagnosis",
    y = "Jumlah",
    title = "Distribusi Diagnosis Kanker Payudara"
  )

Grafik batang menunjukkan bahwa jumlah kasus dengan diagnosis jinak lebih banyak dibandingkan dengan diagnosis ganas pada dataset Breast Cancer Wisconsin.

ggplot(df, aes(x = radius_mean)) +
  geom_histogram(bins = 30, fill = "steelblue") +
  facet_wrap(~ diagnosis_f) +
  labs(
    x = "Radius Mean",
    y = "Frekuensi",
    title = "Distribusi Radius Mean Berdasarkan Diagnosis"
  )

Histogram menunjukkan bahwa jumlah observasi dengan diagnosis jinak lebih banyak dibandingkan dengan diagnosis ganas, sementara nilai radius mean pada kasus ganas cenderung berada pada rentang yang lebih besar.

2.7 Analisis Regresi Logistik Biner

# Membentuk model regresi logistik biner
model <- glm(
  diagnosis ~ radius_mean + texture_mean +
    perimeter_mean + area_mean + smoothness_mean,
  data = df,
  family = binomial
)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
# Ringkasan hasil model
summary(model)
## 
## Call:
## glm(formula = diagnosis ~ radius_mean + texture_mean + perimeter_mean + 
##     area_mean + smoothness_mean, family = binomial, data = df)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -12.52617    8.38544  -1.494 0.135228    
## radius_mean      -6.27525    1.83569  -3.418 0.000630 ***
## texture_mean      0.36410    0.06004   6.064 1.33e-09 ***
## perimeter_mean    0.60716    0.17944   3.384 0.000715 ***
## area_mean         0.04178    0.01375   3.038 0.002378 ** 
## smoothness_mean 118.46210   20.64837   5.737 9.63e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 751.44  on 568  degrees of freedom
## Residual deviance: 169.22  on 563  degrees of freedom
## AIC: 181.22
## 
## Number of Fisher Scoring iterations: 8

Model regresi logistik biner digunakan untuk menganalisis pengaruh beberapa karakteristik sel terhadap diagnosis kanker payudara.

3 HASIL dan PEMBAHASAN

3.1 Deskripsi Distribusi Data

Berdasarkan diagram batang distribusi diagnosis, dapat dilihat bahwa jumlah kasus kanker payudara jinak lebih banyak dibandingkan dengan kanker payudara ganas. Dari total 569 observasi, sebanyak 357 kasus (sekitar 62,7%) termasuk dalam kategori kanker payudara jinak, sedangkan 212 kasus (sekitar 37,3%) termasuk dalam kategori kanker payudara ganas. Hal ini menunjukkan bahwa data tidak seimbang, dengan dominasi kasus kanker payudara jinak.

Selanjutnya, histogram radius mean berdasarkan diagnosis menunjukkan adanya perbedaan pola distribusi antara kedua kelompok. Pada kasus kanker payudara jinak, nilai radius mean cenderung berada pada rentang yang lebih kecil dan memiliki sebaran yang relatif sempit. Sebaliknya, pada kanker payudara ganas, distribusi radius mean bergeser ke nilai yang lebih besar dengan sebaran yang lebih luas. Perbedaan ini memberikan indikasi awal bahwa ukuran sel, yang direpresentasikan oleh radius mean, berpotensi berperan dalam membedakan diagnosis kanker payudara jinak dan ganas.

3.2 Uji Signifikansi Keseluruhan Model

Uji signifikansi keseluruhan model dilakukan menggunakan likelihood ratio test untuk mengetahui apakah variabel independen secara simultan berpengaruh terhadap diagnosis kanker payudara. Berdasarkan hasil pemodelan regresi logistik biner, diperoleh nilai Null Deviance sebesar 751.44 dan Residual Deviance sebesar 169.22. Statistik uji likelihood ratio dihitung dari selisih kedua nilai deviance tersebut, yaitu sebesar 582.22. Dengan derajat bebas 5 dan taraf signifikansi 5%, nilai statistik uji lebih besar dibandingkan nilai kritis Chi-Square, sehingga hipotesis nol ditolak.

Dengan demikian, dapat disimpulkan bahwa model regresi logistik biner secara keseluruhan signifikan dalam menjelaskan diagnosis kanker payudara. Selain itu, nilai pseudo R-square (McFadden) sebesar 0.7748 menunjukkan bahwa sekitar 77.48% variasi diagnosis kanker payudara dapat dijelaskan oleh variabel independen dalam model.

3.3 Uji Parsial Parameter Model

Uji parsial parameter model dilakukan untuk mengetahui pengaruh masing-masing variabel independen terhadap diagnosis kanker payudara. Pemodelan analisis regresi logistik biner menghasilkan output sebagai berikut.

## 
## Call:
## glm(formula = diagnosis ~ radius_mean + texture_mean + perimeter_mean + 
##     area_mean + smoothness_mean, family = binomial, data = df)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -12.52617    8.38544  -1.494 0.135228    
## radius_mean      -6.27525    1.83569  -3.418 0.000630 ***
## texture_mean      0.36410    0.06004   6.064 1.33e-09 ***
## perimeter_mean    0.60716    0.17944   3.384 0.000715 ***
## area_mean         0.04178    0.01375   3.038 0.002378 ** 
## smoothness_mean 118.46210   20.64837   5.737 9.63e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 751.44  on 568  degrees of freedom
## Residual deviance: 169.22  on 563  degrees of freedom
## AIC: 181.22
## 
## Number of Fisher Scoring iterations: 8

Berdasarkan hasil uji parsial parameter model, seluruh variabel independen yang digunakan dalam penelitian ini memiliki nilai p-value lebih kecil dari α = 0.05. Hal ini menunjukkan bahwa radius mean, texture mean, perimeter mean, area mean, dan smoothness mean berpengaruh signifikan secara parsial terhadap diagnosis kanker payudara. Dengan demikian, setiap karakteristik morfologi sel tersebut memiliki kontribusi yang bermakna dalam membedakan kanker payudara jinak dan ganas.

3.3.1 Pembahasan Multikolinearitas

Dalam pemodelan regresi logistik biner yang melibatkan beberapa variabel morfologi sel, terdapat potensi terjadinya multikolinearitas, khususnya antara variabel-variabel yang berkaitan dengan ukuran sel seperti radius mean, perimeter mean, dan area mean. Multikolinearitas dapat memengaruhi kestabilan estimasi parameter serta menyebabkan arah koefisien regresi yang kurang intuitif apabila diinterpretasikan secara terpisah.

Untuk mendeteksi adanya multikolinearitas, dilakukan perhitungan Variance Inflation Factor (VIF). Secara umum, nilai VIF kurang dari 10 menunjukkan bahwa multikolinearitas tidak berada pada tingkat yang mengkhawatirkan.

##     radius_mean    texture_mean  perimeter_mean       area_mean smoothness_mean 
##      243.795468        1.589428       99.159031       97.807647        2.236333

Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), variabel radius mean, perimeter mean, dan area mean memiliki nilai VIF yang melebihi batas umum VIF = 10, yang mengindikasikan adanya multikolinearitas yang kuat antar variabel ukuran sel. Kondisi ini wajar karena ketiga variabel tersebut merepresentasikan dimensi geometris yang saling berkaitan.

Multikolinearitas tidak memengaruhi kemampuan model dalam mengklasifikasikan diagnosis kanker payudara, namun dapat menyebabkan ketidakstabilan estimasi parameter dan arah koefisien yang kurang intuitif jika diinterpretasikan secara individual. Oleh karena itu, interpretasi model difokuskan pada signifikansi parameter dan kinerja klasifikasi secara keseluruhan, bukan pada besar dan arah koefisien variabel yang mengalami multikolinearitas tinggi.

3.4 Model Regresi Logistik Biner

Model regresi logistik biner yang terbentuk berdasarkan hasil estimasi parameter adalah sebagai berikut: \[ \text{logit}(\pi(x)) = -12.526 - 6.275\,X_1 + 0.364\,X_2 + 0.607\,X_3 + 0.0418\,X_4 + 118.462\,X_5 \]

dengan:

  • \(X_1\) = radius mean
  • \(X_2\) = texture mean
  • \(X_3\) = perimeter mean
  • \(X_4\) = area mean
  • \(X_5\) = smoothness mean

Model ini digunakan untuk memperkirakan peluang suatu kanker bersifat ganas berdasarkan karakteristik morfologi sel.

3.5 Odds Ratio

exp(coef(model))
##     (Intercept)     radius_mean    texture_mean  perimeter_mean       area_mean 
##    3.630376e-06    1.882317e-03    1.439219e+00    1.835206e+00    1.042663e+00 
## smoothness_mean 
##    2.801792e+51

Berdasarkan hasil perhitungan odds ratio dari model regresi logistik biner, diperoleh interpretasi sebagai berikut:

  1. Radius Mean (X1) Nilai odds ratio untuk variabel radius mean sebesar 0.0019. Hal ini menunjukkan bahwa setiap kenaikan satu satuan radius mean menurunkan peluang diagnosis kanker payudara ganas sebesar 0.0019 kali, dengan asumsi variabel lain konstan.

  2. Texture Mean (X2) Nilai odds ratio untuk variabel texture mean sebesar 1.4392. Artinya, setiap kenaikan satu satuan texture mean meningkatkan peluang diagnosis kanker payudara ganas sebesar 1.4392 kali, dengan asumsi variabel lain tetap.

  3. Perimeter Mean (X3) Nilai odds ratio untuk variabel perimeter mean sebesar 1.8352. Hal ini menunjukkan bahwa setiap kenaikan satu satuan perimeter mean meningkatkan peluang terjadinya kanker payudara ganas sebesar 1.8352 kali, dengan asumsi variabel lain konstan.

  4. Area Mean (X4) Nilai odds ratio untuk variabel area mean sebesar 1.0427. Artinya, setiap kenaikan satu satuan area mean meningkatkan peluang diagnosis kanker payudara ganas sebesar 1.0427 kali, dengan asumsi variabel lain tetap.

  5. Smoothness Mean (X5) Nilai odds ratio untuk variabel smoothness mean sebesar 2.80 × 10⁵¹. Nilai ini menunjukkan bahwa smoothness mean memiliki pengaruh yang sangat kuat terhadap peluang diagnosis kanker payudara ganas. Namun demikian, besarnya nilai ini juga mengindikasikan kemungkinan adanya skala variabel yang sangat kecil atau potensi masalah numerik pada model, sehingga interpretasi perlu dilakukan dengan kehati-hatian.

3.6 Evaluasi Klasifikasi Model

# Probabilitas prediksi
prob <- fitted(model)

# Klasifikasi berdasarkan cut-off 0.5
pred <- ifelse(prob > 0.5, 1, 0)

# Confusion matrix
conf_matrix <- table(
  Aktual = df$diagnosis,
  Prediksi = pred
)

conf_matrix
##       Prediksi
## Aktual   0   1
##      0 341  16
##      1  23 189
akurasi <- sum(diag(conf_matrix)) / sum(conf_matrix)
akurasi
## [1] 0.9314587

Berdasarkan hasil klasifikasi menggunakan nilai ambang (cut-off) sebesar 0.5, model regresi logistik biner mampu mengklasifikasikan sebagian besar observasi dengan benar. Confusion matrix menunjukkan bahwa kesalahan klasifikasi relatif kecil baik pada kelompok diagnosis jinak maupun ganas.

Nilai akurasi model sebesar 93.15% menunjukkan bahwa model memiliki kemampuan yang sangat baik dalam membedakan diagnosis kanker payudara jinak dan ganas. Dengan demikian, model regresi logistik biner yang dibentuk memiliki performa klasifikasi yang tinggi dan layak digunakan untuk analisis prediktif.

4 KESIMPULAN

Berdasarkan hasil analisis regresi logistik biner yang dilakukan pada Breast Cancer Wisconsin (Diagnostic) Dataset, dapat disimpulkan bahwa karakteristik morfologi sel memiliki peran penting dalam menentukan diagnosis kanker payudara. Variabel texture mean, perimeter mean, area mean, dan smoothness mean cenderung meningkatkan peluang terjadinya kanker payudara ganas, sedangkan radius mean menunjukkan kecenderungan menurunkan peluang tersebut. Meskipun terdapat multikolinearitas pada beberapa variabel ukuran sel, model regresi logistik biner tetap menunjukkan kinerja klasifikasi yang sangat baik dengan tingkat akurasi yang tinggi. Oleh karena itu, regresi logistik biner dapat digunakan sebagai metode yang efektif untuk membedakan diagnosis kanker payudara jinak dan ganas serta mendukung upaya analisis dan deteksi dini berbasis data.

5 DAFTAR PUSTAKA

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.

Sugiyono. (2017). Statistika untuk Penelitian. Alfabeta.

World Health Organization. (2023). Breast cancer. World Health Organization.

Dua, D., & Graff, C. (2019). UCI Machine Learning Repository. University of California, Irvine.

6 KONTAK PENULIS

Nama: Febi Anggun Lestari

Email:

GitHub: https://github.com/febicisasm76-ai/porto-unimus1

LinkedIn: https://www.linkedin.com/in/febi-anggun-lestari-8026422b0/