Logo


1 Perbandingan Binary Logistics Regression & Multinomial Logistics

1.1 Regresi Logistik Multinomial

Regresi Logistik Multinomial digunakan ketika variabel dependen (Y) memiliki lebih dari dua kategori yang tidak memiliki urutan (non-ordinal), misalnya Low / Medium / High, No / Maybe / Yes, atau Brand A / Brand B / Brand C. Model ini memperluas konsep regresi logistik biner untuk memprediksi probabilitas setiap kategori dari suatu peristiwa.

Persamaan umum Regresi Logistik Multinomial untuk J kategori adalah:

\[ P(Y = j|X) = \frac{e^{(\beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{kj}X_k)}}{\sum_{m=1}^{J} e^{(\beta_{0m} + \beta_{1m}X_1 + \beta_{2m}X_2 + \dots + \beta_{km}X_k)}}, \quad j = 1, 2, \dots, J \]

Salah satu kategori (biasanya kategori terakhir) digunakan sebagai kategori referensi (baseline). Dengan demikian, model membandingkan peluang setiap kategori lain terhadap kategori referensi tersebut.

Dalam bentuk log-odds (logit):

\[ \ln\left(\frac{P(Y=j|X)}{P(Y=J|X)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{kj}X_k \]

dengan:

  • ( j = 1, 2, , J-1 )
  • ( J ) = kategori referensi

Keterangan:

  • ( P(Y=j|X) ): probabilitas bahwa observasi termasuk dalam kategori ( j )
  • ( X_1, X_2, , X_k ): variabel independen
  • ( _{ij} ): koefisien regresi untuk variabel ( X_i ) pada kategori ( j ) dibandingkan dengan kategori referensi
  • ( () ): log-odds perbandingan antara kategori ( j ) dan kategori referensi

Interpretasi Koefisien:

  • Setiap koefisien ( _{ij} ) menunjukkan perubahan log-odds memilih kategori ( j ) dibandingkan kategori referensi, untuk setiap peningkatan satu unit pada ( X_i ).
  • Untuk mempermudah interpretasi, digunakan odds ratio (OR):

\[ OR_{ij} = e^{\beta_{ij}} \]

  • ( OR > 1 ) → meningkatkan kemungkinan memilih kategori ( j ) dibanding kategori referensi
  • ( OR < 1 ) → menurunkan kemungkinan memilih kategori ( j ) dibanding kategori referensi

1.2 Studi Kasus: Regresi Logistik Multinomial

Untuk memodelkan hubungan antara faktor pemasaran dan tingkat keberhasilan (Rendah, Sedang, Tinggi), digunakan Multinomial Logistic Regression. Model ini merupakan perluasan dari Binary Logistic Regression untuk menangani outcome dengan lebih dari dua kategori.

Di sini, kita asumsikan outcome telah dijadikan variabel multinomial, misalnya Sales_Level dengan 3 kelas. Jika data masih biner, perlu dilakukan simulasi atau modifikasi data terlebih dahulu (lihat kode data simulasi sebelumnya).

Variabel yang digunakan sama seperti pada Binary Logistic Regression:

Variabel Keterangan
Advertising (X₁) Jumlah anggaran iklan (dalam ribuan dolar)
Salespeople (X₂) Jumlah tenaga penjualan
Satisfaction (X₃) Skor kepuasan pelanggan (1–10)
Competition (X₄) Tingkat persaingan di pasar (1–10)

Variabel Sales_Level (Y) menggambarkan tingkat keberhasilan pemasaran produk di pasar, yang dipengaruhi oleh kombinasi faktor-faktor di atas.

1.2.1 Solusi: Regresi Logistik Multinomial

Untuk memprediksi kategori keberhasilan pemasaran (Low, Medium, High), kita gunakan Regresi Logistik Multinomial. Model ini memperluas konsep regresi logistik biner menjadi tiga atau lebih kategori dengan menggunakan fungsi multinom() dari package nnet.

## # weights:  18 (10 variable)
## initial  value 219.722458 
## iter  10 value 74.035958
## iter  20 value 10.184973
## iter  30 value 3.128498
## iter  40 value 2.494879
## iter  50 value 1.389278
## iter  60 value 1.303630
## iter  70 value 1.211026
## iter  80 value 1.151583
## iter  90 value 0.769077
## iter 100 value 0.758931
## final  value 0.758931 
## stopped after 100 iterations
## Call:
## multinom(formula = Sales_Level ~ Advertising + Salespeople + 
##     Satisfaction + Competition, data = data_multi)
## 
## Coefficients:
##        (Intercept) Advertising Salespeople Satisfaction Competition
## Medium   -186.5274  -0.1745515  -0.2183000     48.54479 -0.06610447
## High     -356.3857   0.2015697  -0.6677029     73.42053 -0.21545317
## 
## Std. Errors:
##        (Intercept) Advertising Salespeople Satisfaction Competition
## Medium    114.0772   0.3695562   0.7135901     29.69806    2.219283
## High      152.2433   0.5145493   0.9565134     33.14412    2.587790
## 
## Residual Deviance: 1.517863 
## AIC: 21.51786
##          Actual
## Predicted Low Medium High
##    Low     67      0    0
##    Medium   0     63    0
##    High     0      0   70
## [1] "Model Accuracy: 100 %"

1.2.2 Interpretasi Hasil Regresi

Model Regresi Logistik Multinomial dibangun untuk memprediksi tingkat keberhasilan pemasaran (Low, Medium, High) berdasarkan variabel Advertising, Salespeople, Satisfaction, dan Competition. Hasil estimasi menunjukkan pola dan pengaruh yang konsisten secara logis antara variabel-variabel pemasaran terhadap tingkat keberhasilan.

1.2.3 Nilai Koefisien

  • Intercept (Medium = -186.52; High = -356.39): Nilai negatif yang besar pada intercept menunjukkan probabilitas dasar yang sangat kecil untuk berada pada kategori Medium atau High ketika semua variabel independen bernilai nol. Dengan kata lain, tanpa investasi pemasaran dan faktor pendukung lainnya, kemungkinan keberhasilan hampir tidak ada.

  • Advertising (Medium = -0.17; High = 0.20): Pada kategori Medium, koefisien negatif menunjukkan bahwa peningkatan anggaran iklan sedikit menurunkan peluang berpindah dari Low ke Medium. Namun, pada kategori High, koefisien positif (0.20) menunjukkan bahwa pengeluaran iklan yang lebih besar justru meningkatkan peluang mencapai keberhasilan tinggi (High Success). Ini dapat diartikan bahwa efek iklan baru terasa signifikan saat level keberhasilan sudah tinggi.

  • Salespeople (Medium = -0.22; High = -0.67): Koefisien negatif di kedua kategori menunjukkan bahwa peningkatan jumlah tenaga penjualan saja tidak selalu berbanding lurus dengan peningkatan level keberhasilan. Hal ini bisa terjadi jika tenaga penjualan tidak diimbangi dengan strategi atau pelatihan yang efektif.

  • Satisfaction (Medium = 48.54; High = 73.42): Nilai positif yang besar menunjukkan bahwa kepuasan pelanggan memiliki pengaruh paling dominan terhadap peningkatan tingkat keberhasilan. Kenaikan skor kepuasan pelanggan meningkatkan peluang secara tajam untuk berpindah dari Low ke Medium dan terutama ke High. Ini menegaskan bahwa loyalitas dan kepuasan pelanggan menjadi faktor kunci kesuksesan pemasaran.

  • Competition (Medium = -0.07; High = -0.22): Koefisien negatif menunjukkan bahwa semakin tinggi tingkat persaingan pasar, semakin rendah peluang keberhasilan. Efek negatif lebih kuat pada kategori High, menandakan bahwa persaingan ketat menjadi penghambat utama untuk mencapai performa terbaik.

1.2.4 Evaluasi Kinerja Model

Confusion Matrix: Berdasarkan matriks klasifikasi, model berhasil mengelompokkan seluruh observasi secara tepat sesuai kategori aslinya:

  • Predicted Low → 67 benar
  • Predicted Medium → 63 benar
  • Predicted High → 70 benar

Tidak ada kesalahan klasifikasi di antara ketiga kategori.

Akurasi Model: Tingkat akurasi sebesar 100% menunjukkan bahwa model mampu memprediksi semua observasi dengan benar. Hal ini menunjukkan model sangat baik dalam menjelaskan hubungan antar variabel, meskipun juga perlu diwaspadai adanya kemungkinan overfitting, terutama karena data yang digunakan merupakan hasil simulasi.

1.2.5 Kesimpulan Umum

Model ini menunjukkan bahwa:

  • Kepuasan pelanggan (Satisfaction) menjadi faktor yang paling kuat memengaruhi tingkat keberhasilan pemasaran.
  • Persaingan (Competition) berpengaruh negatif terhadap performa, terutama untuk mencapai kategori keberhasilan tertinggi.
  • Anggaran iklan (Advertising) berkontribusi positif pada level keberhasilan tinggi, namun tidak signifikan di level menengah.
  • Model memiliki akurasi sempurna (100%), menandakan hubungan antarvariabel dalam dataset sangat kuat dan konsisten.

1.2.6 Visualization: Logistic Regression

Visualisasi ini membantu memahami bagaimana probabilitas kategori Marketing Success (Low, Medium, High) berubah terhadap variabel prediktor utama seperti Advertising_Spend.

1.2.7 Interpretasi Hasil Regresi Logistik Multinomial

Model Multinomial Logistic Regression yang dibangun untuk memprediksi tingkat keberhasilan pemasaran (Sales_Level) menghasilkan performa yang sangat baik dengan akurasi 100% dan AIC = 21.52, menandakan kesesuaian model yang tinggi terhadap data.

Dari hasil estimasi koefisien:

  • Advertising (Anggaran Iklan): Memiliki pengaruh positif terhadap kategori High, artinya semakin besar anggaran iklan, semakin tinggi kemungkinan produk mencapai tingkat keberhasilan tinggi.
  • Salespeople (Jumlah Tenaga Penjualan): Memiliki koefisien negatif pada kedua kategori (Medium dan High), yang menunjukkan bahwa dalam konteks dataset ini, peningkatan jumlah tenaga penjualan tidak selalu berbanding lurus dengan keberhasilan. Bisa jadi disebabkan oleh efisiensi atau biaya tambahan yang tidak seimbang dengan hasil.
  • Satisfaction (Kepuasan Pelanggan): Berpengaruh positif kuat pada kedua kategori (Medium dan High), mengindikasikan bahwa semakin tinggi tingkat kepuasan pelanggan, semakin besar peluang untuk mencapai keberhasilan pemasaran yang lebih tinggi.
  • Competition (Tingkat Persaingan): Memiliki koefisien negatif pada kedua kategori, berarti semakin tinggi tingkat persaingan di pasar, semakin kecil peluang untuk mencapai keberhasilan yang tinggi.

Visualisasi scatter dan garis prediksi menunjukkan pemisahan yang sangat jelas antar kategori:

  • Titik kuning (Low) muncul pada area kepuasan rendah.
  • Titik merah (Medium) berada di tengah, dengan kepuasan sedang.
  • Titik biru (High) mendominasi pada kepuasan tinggi.

Dengan demikian, model ini sangat baik dalam mengklasifikasikan kategori keberhasilan pemasaran, dan variabel Customer Satisfaction terbukti menjadi faktor paling berpengaruh dalam menentukan tingkat keberhasilan (Sales_Level).

1.3 Perbandingan Regresi Logistik Biner vs Multinomial

Aspek Regresi Logistik Biner Regresi Logistik Multinomial
Tujuan Memprediksi probabilitas dari dua kategori (mis. Success atau Failure) Memprediksi probabilitas dari tiga atau lebih kategori (Low, Medium, High)
Variabel Dependen (Y) Success (biner: 0 = gagal, 1 = berhasil) Sales_Level (multinomial: Low, Medium, High)
Variabel Independen (X) Advertising, Salespeople, Satisfaction, Competition Advertising, Salespeople, Satisfaction, Competition
Model Function glm(..., family = binomial) multinom(...) dari package nnet
Interpretasi Koefisien Koefisien merepresentasikan perubahan log-odds untuk peluang keberhasilan (Success = 1) Setiap kategori (Medium dan High) dibandingkan terhadap kategori referensi (Low)
Signifikansi Variabel Advertising (p < 0.001)
Salespeople (p < 0.001)
Satisfaction (p = 0.002)
Competition (p = 0.069)
Satisfaction berpengaruh sangat kuat pada Medium & High
Advertising positif untuk High, negatif untuk Medium
Competition negatif untuk semua kategori
Deviance / AIC Residual Deviance = 63.617
AIC = 73.617
Residual Deviance = 1.518
AIC = 21.518
Akurasi Model Sekitar 93.5% (182 + 5 benar dari 200 observasi) 100%, semua kategori diklasifikasikan dengan sempurna
Polarisasi Kelas Hanya dua hasil akhir → cocok untuk keputusan ya/tidak Lebih detail → bisa membedakan tingkat keberhasilan secara bertahap
Kelebihan Sederhana dan interpretatif Menangani banyak kategori sekaligus, fleksibel
Keterbatasan Tidak bisa menangani >2 kategori Interpretasi lebih kompleks dan rentan overfitting pada data kecil

Referensi

https://bookdown.org/content/a142b172-69b2-436d-bdb0-9da6d046a0f9/02-Regression_Model.html#binary-logistic-regression

https://www.statistikian.com/2013/01/transformasi-data.html

https://exsight.id/blog/2023/05/14/transformasi-data-part-1/

https://patrastatistika.com/transformasi-data/

https://www.revou.co/kosakata/data-transformation