Bab 1 Multinomial Logistic Regression

Multinomial Logistic Regression digunakan ketika variabel dependen (Y) bersifat kategorikal dengan lebih dari dua kategori (multikategori), misalnya: rendah, sedang, tinggi atau A, B, C.

Model ini digunakan untuk memprediksi probabilitas bahwa suatu observasi termasuk ke dalam salah satu kategori berdasarkan variabel-variabel independen.

Persamaan Multinomial Logistic Regression

Untuk setiap kategori ke-j (selain kategori referensi):

\[ P(Y = j|X) = \frac{e^{(\beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \cdots + \beta_{kj}X_k)}}{\sum_{m=1}^{J} e^{(\beta_{0m} + \beta_{1m}X_1 + \beta_{2m}X_2 + \cdots + \beta_{km}X_k)}} \]

di mana satu kategori (biasanya kategori terakhir) dijadikan sebagai kategori referensi (baseline).

Atau dalam bentuk logit (log-odds):

Untuk setiap kategori j relatif terhadap kategori referensi J:

\[ \log\left(\frac{P(Y=j|X)}{P(Y=J|X)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \cdots + \beta_{kj}X_k \]

  • \(P(Y = j \mid X)\) : probabilitas bahwa observasi termasuk ke kategori j
  • \(X_1, X_2, \ldots, X_k\) : variabel independen
  • \(\beta_{0j}, \beta_{1j}, \ldots, \beta_{kj}\) : koefisien model untuk kategori j
  • Kategori J digunakan sebagai kategori referensi (baseline) untuk perbandingan log-odds.

Interpretasi Koefisien:

  • Koefisien ( \(\beta_{ij}\) ) mewakili perubahan log-odds dari kemungkinan memilih kategori j dibandingkan dengan kategori referensi J, untuk setiap kenaikan satu unit pada variabel ( \(X_i\) ), dengan variabel lainnya dianggap konstan.
  • Untuk interpretasi yang lebih intuitif, gunakan rasio peluang (odds ratio) dengan: \[ e^{\beta_{ij}} \] Nilai ini menunjukkan seberapa besar peluang observasi termasuk ke kategori j dibandingkan J ketika ( \(X_i\) ) meningkat satu unit.

1.1 Pembuatan Model Multinomial Logistic Regression

1.1.1 Persiapan dan Import Data

##   Advertising         Salespeople         Satisfaction      
##  Min.   :1.667e+13   Min.   :1.599e+12   Min.   :9.721e+13  
##  1st Qu.:1.329e+15   1st Qu.:1.263e+15   1st Qu.:2.352e+15  
##  Median :1.975e+15   Median :1.991e+15   Median :4.640e+15  
##  Mean   :2.522e+15   Mean   :1.950e+15   Mean   :4.872e+15  
##  3rd Qu.:2.710e+15   3rd Qu.:2.812e+15   3rd Qu.:7.364e+15  
##  Max.   :9.692e+15   Max.   :3.478e+15   Max.   :9.970e+15  
##   Competition        Success_Level     
##  Min.   :2.485e+13   Length:200        
##  1st Qu.:2.315e+15   Class :character  
##  Median :4.764e+15   Mode  :character  
##  Mean   :4.807e+15                     
##  3rd Qu.:7.419e+15                     
##  Max.   :9.930e+15

1.1.1.1 Interpretasi Hasil Statistika Deskriptif

  • Data berisi 200 observasi dengan 4 variabel numerik utama dan 1 variabel kategorikal target.
  • Semua variabel numerik memiliki skala nilai yang sangat besar (orde 10¹³–10¹⁶) → perlu normalisasi atau standarisasi.
  • Distribusi data cenderung positif (right-skewed) pada beberapa variabel seperti Advertising dan Satisfaction, menandakan adanya nilai ekstrem tinggi.

1.1.2 Menentukan Variabel Dependen dan Independen

Dalam model ini, ditetapkan:

  • Variabel dependen: Success_Level (kategori: Low, Medium, High)
  • Variabel independen: Advertising, Salespeople, Satisfaction, Competition
##  Factor w/ 3 levels "Low","Medium",..: 1 3 2 3 3 1 2 2 1 1 ...
## 
##    Low Medium   High 
##     66     66     68

Variabel Success_Level terdiri dari tiga kategori — Low, Medium, dan High — dengan jumlah data yang relatif seimbang (66, 66, dan 68). Distribusi ini ideal untuk digunakan dalam model Multinomial Logistic Regression karena tidak menunjukkan ketidakseimbangan kelas yang signifikan.

1.1.3 Membuat Model Multinomial Logistic Regression

## # weights:  18 (10 variable)
## initial  value 219.722458 
## final  value 219.722458 
## converged
## 
## AIC: 459.4449
##    Category    Predictor      Estimate    Std.Error    z.value      p.value
## 1    Medium  (Intercept) -2.345625e-32          NaN        NaN          NaN
## 2    Medium  Advertising -6.294079e-16 4.226550e-16 -1.4891765 1.364409e-01
## 3    Medium  Salespeople  2.166003e-16 4.748291e-16  0.4561649 6.482714e-01
## 4    Medium Satisfaction -5.775766e-16 3.951824e-16 -1.4615444 1.438661e-01
## 5    Medium  Competition -1.128020e-16 1.757905e-16 -0.6416843 5.210782e-01
## 6      High  (Intercept)  4.691250e-32          NaN        NaN          NaN
## 7      High  Advertising -7.918943e-16 1.316661e-16 -6.0144137 1.805389e-09
## 8      High  Salespeople  8.561553e-16 1.807983e-16  4.7354166 2.186055e-06
## 9      High Satisfaction  4.864593e-16 8.430739e-17  5.7700669 7.924006e-09
## 10     High  Competition -3.219946e-16 6.919014e-17 -4.6537641 3.259297e-06

1.1.3.1 Interpretasi Model Multinomial Logistic Regression

Model multinomial logistic regression berhasil berkonvergensi dan memberikan hasil estimasi yang valid dengan nilai AIC sebesar 459.44, menandakan model memiliki tingkat kecocokan yang wajar.

Untuk kategori Medium vs Low, seluruh variabel prediktor memiliki nilai p-value di atas 0.05. Hal ini berarti tidak ada pengaruh signifikan secara statistik dari Advertising, Salespeople, Satisfaction, maupun Competition terhadap kemungkinan berada pada kategori Medium Success.

Sebaliknya, untuk kategori High vs Low, seluruh variabel prediktor memiliki nilai p-value < 0.01, menunjukkan pengaruh yang signifikan secara statistik, dengan arah pengaruh sebagai berikut:

  • Advertising (-) → peningkatan aktivitas iklan justru menurunkan peluang keberhasilan tinggi.
  • Salespeople (+) → jumlah tenaga penjualan yang lebih banyak meningkatkan peluang keberhasilan tinggi.
  • Satisfaction (+) → tingkat kepuasan pelanggan yang tinggi berkontribusi positif terhadap keberhasilan.
  • Competition (-) → persaingan yang meningkat menurunkan peluang keberhasilan.

Kesimpulan Umum

Model menunjukkan bahwa faktor internal seperti Salespeople dan Satisfaction berperan penting dalam meningkatkan tingkat keberhasilan (High Success Level), sedangkan faktor eksternal seperti Advertising dan Competition justru memiliki dampak negatif jika tidak dikelola dengan baik. Secara keseluruhan, hasil ini mempertegas bahwa strategi pemasaran berbasis kualitas pelayanan dan tenaga penjualan lebih efektif dibandingkan peningkatan promosi semata.

1.1.4 Evaluasi Model

##          Actual
## Predicted Low Medium High
##    Low     35     23   22
##    Medium   0      0    0
##    High    31     43   46
## [1] 0.405

1.1.4.1 Interpretasi Confusion Matrix dan Akurasi

  • Akurasi keseluruhan: 40,5% → model masih kurang akurat.

Prediksi per kelas:

  • Kelas Medium tidak pernah terprediksi → model gagal mengenali kategori ini.
  • Kelas Low hanya 35 prediksi benar, sisanya salah diklasifikasikan.
  • Kelas High 46 prediksi benar, tetapi banyak kasus Low dan Medium juga salah diklasifikasikan sebagai High.

Kesimpulan: Model bias ke kelas High dan tidak mampu membedakan semua kategori dengan baik, kemungkinan akibat class imbalance atau hubungan variabel prediktor yang lemah.

1.1.5 Visualisasi Interaktif

1.1.5.1 Interpretasi Visualisasi

Visualisasi di atas menunjukkan hasil pemodelan Multinomial Logistic Regression untuk memprediksi tingkat keberhasilan (Success Level) berdasarkan variabel Advertising, Salespeople, Satisfaction, dan Competition. Terlihat bahwa Salespeople berpengaruh positif terhadap peluang masuk kategori High Success, sedangkan Advertising cenderung menurun seiring peningkatan nilai, menandakan efek iklan yang tidak selalu efektif.

Satisfaction menunjukkan pola non-linear — peluang keberhasilan meningkat pada tingkat kepuasan sedang namun menurun kembali setelah melewati titik tertentu. Sementara itu, Competition berhubungan negatif dengan keberhasilan, di mana semakin tinggi persaingan, semakin rendah probabilitas sukses. Nilai AIC = 459.44 menunjukkan model cukup sesuai, dengan indikasi bahwa faktor tenaga penjual dan kepuasan berperan positif, sedangkan kompetisi dan iklan berlebihan menjadi penghambat utama.

1.2 Perbandingan Model Multinomial Logistic Regression dengan Binary Logistic Regression

Model regresi logistik biner yang dihasilkan adalah:

\[ \text{logit}(p) = -6.01 + 0.19(\text{Advertising}) + 0.28(\text{Salespeople}) + 0.42(\text{Satisfaction}) - 0.27(\text{Competition}) \]

dengan akurasi sebesar 93.6% dan nilai AIC = 73.62.

Dari model multinomial saat ini diperoleh:

  • Akurasi = 40.5%
  • AIC = 459.4449155
Model Jenis Akurasi AIC Keterangan
Binary Logistic Regression 2 Kategori 93.6% 73.62 Lebih sederhana dan akurat
Multinomial Logistic Regression 3 Kategori (Low, Medium, High) 40.5% 459.4449155 Memberi insight lebih detail

1.2.1 KESIMPULAN

  • Binary logistic regression memberikan akurasi yang lebih tinggi, tetapi hanya bisa membedakan dua kondisi (sukses/tidak).
  • Multinomial logistic regression memberikan pandangan yang lebih kaya terhadap tingkatan keberhasilan (Low, Medium, High), meskipun akurasinya lebih rendah.

Pemilihan model tergantung pada tujuan analisis:

  • Jika fokusnya pada keberhasilan biner, gunakan Binary Logistic Regression.
  • Jika fokus pada memahami tingkatan keberhasilan, gunakan Multinomial Logistic Regression.

1.3 Referensi