Regresi Logistik Multinomial digunakan ketika variabel dependen (Y) memiliki lebih dari dua kategori yang tidak memiliki urutan (non-ordinal), misalnya Low / Medium / High, No / Maybe / Yes, atau Brand A / Brand B / Brand C. Model ini memperluas konsep regresi logistik biner untuk memprediksi probabilitas setiap kategori dari suatu peristiwa.
Persamaan umum Regresi Logistik Multinomial untuk J kategori adalah:
\[ P(Y = j|X) = \frac{e^{(\beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{kj}X_k)}}{\sum_{m=1}^{J} e^{(\beta_{0m} + \beta_{1m}X_1 + \beta_{2m}X_2 + \dots + \beta_{km}X_k)}}, \quad j = 1, 2, \dots, J \]
Salah satu kategori (biasanya kategori terakhir) digunakan sebagai kategori referensi (baseline). Dengan demikian, model membandingkan peluang setiap kategori lain terhadap kategori referensi tersebut.
Dalam bentuk log-odds (logit):
\[ \ln\left(\frac{P(Y=j|X)}{P(Y=J|X)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{kj}X_k \]
dengan:
Keterangan:
Interpretasi Koefisien:
\[ OR_{ij} = e^{\beta_{ij}} \]
Untuk memodelkan hubungan antara faktor pemasaran dan tingkat keberhasilan (Rendah, Sedang, Tinggi), digunakan Multinomial Logistic Regression. Model ini merupakan perluasan dari Binary Logistic Regression untuk menangani outcome dengan lebih dari dua kategori.
Di sini, kita asumsikan outcome telah dijadikan variabel multinomial,
misalnya Sales_Level dengan 3 kelas. Jika data masih biner,
perlu dilakukan simulasi atau modifikasi data terlebih
dahulu (lihat kode data simulasi sebelumnya).
Variabel yang digunakan sama seperti pada Binary Logistic Regression:
| Variabel | Keterangan |
|---|---|
| Advertising (X₁) | Jumlah anggaran iklan (dalam ribuan dolar) |
| Salespeople (X₂) | Jumlah tenaga penjualan |
| Satisfaction (X₃) | Skor kepuasan pelanggan (1–10) |
| Competition (X₄) | Tingkat persaingan di pasar (1–10) |
Variabel Sales_Level (Y) menggambarkan tingkat keberhasilan pemasaran produk di pasar, yang dipengaruhi oleh kombinasi faktor-faktor di atas.
Untuk memprediksi kategori keberhasilan pemasaran
(Low, Medium, High), kita gunakan
Regresi Logistik Multinomial. Model ini memperluas
konsep regresi logistik biner menjadi tiga atau lebih kategori dengan
menggunakan fungsi multinom() dari package
nnet.
## # weights: 18 (10 variable)
## initial value 219.722458
## iter 10 value 74.035958
## iter 20 value 10.184973
## iter 30 value 3.128498
## iter 40 value 2.494879
## iter 50 value 1.389278
## iter 60 value 1.303630
## iter 70 value 1.211026
## iter 80 value 1.151583
## iter 90 value 0.769077
## iter 100 value 0.758931
## final value 0.758931
## stopped after 100 iterations
## Call:
## multinom(formula = Sales_Level ~ Advertising + Salespeople +
## Satisfaction + Competition, data = data_multi)
##
## Coefficients:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium -186.5274 -0.1745515 -0.2183000 48.54479 -0.06610447
## High -356.3857 0.2015697 -0.6677029 73.42053 -0.21545317
##
## Std. Errors:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium 114.0772 0.3695562 0.7135901 29.69806 2.219283
## High 152.2433 0.5145493 0.9565134 33.14412 2.587790
##
## Residual Deviance: 1.517863
## AIC: 21.51786
## Actual
## Predicted Low Medium High
## Low 67 0 0
## Medium 0 63 0
## High 0 0 70
## [1] "Model Accuracy: 100 %"
Model Regresi Logistik Multinomial dibangun untuk
memprediksi tingkat keberhasilan pemasaran (Low,
Medium, High) berdasarkan variabel
Advertising, Salespeople, Satisfaction, dan
Competition. Hasil estimasi menunjukkan pola dan pengaruh yang
konsisten secara logis antara variabel-variabel pemasaran terhadap
tingkat keberhasilan.
Intercept (Medium = -186.52; High = -356.39): Nilai negatif yang besar pada intercept menunjukkan probabilitas dasar yang sangat kecil untuk berada pada kategori Medium atau High ketika semua variabel independen bernilai nol. Dengan kata lain, tanpa investasi pemasaran dan faktor pendukung lainnya, kemungkinan keberhasilan hampir tidak ada.
Advertising (Medium = -0.17; High = 0.20): Pada kategori Medium, koefisien negatif menunjukkan bahwa peningkatan anggaran iklan sedikit menurunkan peluang berpindah dari Low ke Medium. Namun, pada kategori High, koefisien positif (0.20) menunjukkan bahwa pengeluaran iklan yang lebih besar justru meningkatkan peluang mencapai keberhasilan tinggi (High Success). Ini dapat diartikan bahwa efek iklan baru terasa signifikan saat level keberhasilan sudah tinggi.
Salespeople (Medium = -0.22; High = -0.67): Koefisien negatif di kedua kategori menunjukkan bahwa peningkatan jumlah tenaga penjualan saja tidak selalu berbanding lurus dengan peningkatan level keberhasilan. Hal ini bisa terjadi jika tenaga penjualan tidak diimbangi dengan strategi atau pelatihan yang efektif.
Satisfaction (Medium = 48.54; High = 73.42): Nilai positif yang besar menunjukkan bahwa kepuasan pelanggan memiliki pengaruh paling dominan terhadap peningkatan tingkat keberhasilan. Kenaikan skor kepuasan pelanggan meningkatkan peluang secara tajam untuk berpindah dari Low ke Medium dan terutama ke High. Ini menegaskan bahwa loyalitas dan kepuasan pelanggan menjadi faktor kunci kesuksesan pemasaran.
Competition (Medium = -0.07; High = -0.22): Koefisien negatif menunjukkan bahwa semakin tinggi tingkat persaingan pasar, semakin rendah peluang keberhasilan. Efek negatif lebih kuat pada kategori High, menandakan bahwa persaingan ketat menjadi penghambat utama untuk mencapai performa terbaik.
Confusion Matrix: Berdasarkan matriks klasifikasi, model berhasil mengelompokkan seluruh observasi secara tepat sesuai kategori aslinya:
Tidak ada kesalahan klasifikasi di antara ketiga kategori.
Akurasi Model: Tingkat akurasi sebesar 100% menunjukkan bahwa model mampu memprediksi semua observasi dengan benar. Hal ini menunjukkan model sangat baik dalam menjelaskan hubungan antar variabel, meskipun juga perlu diwaspadai adanya kemungkinan overfitting, terutama karena data yang digunakan merupakan hasil simulasi.
Model ini menunjukkan bahwa:
Visualisasi ini membantu memahami bagaimana probabilitas kategori Marketing Success (Low, Medium, High) berubah terhadap variabel prediktor utama seperti Advertising_Spend.
Model Multinomial Logistic Regression yang dibangun untuk memprediksi tingkat keberhasilan pemasaran (Sales_Level) menghasilkan performa yang sangat baik dengan akurasi 100% dan AIC = 21.52, menandakan kesesuaian model yang tinggi terhadap data.
Dari hasil estimasi koefisien:
Visualisasi scatter dan garis prediksi menunjukkan pemisahan yang sangat jelas antar kategori:
Dengan demikian, model ini sangat baik dalam mengklasifikasikan kategori keberhasilan pemasaran, dan variabel Customer Satisfaction terbukti menjadi faktor paling berpengaruh dalam menentukan tingkat keberhasilan (Sales_Level).
| Aspek | Regresi Logistik Biner | Regresi Logistik Multinomial |
|---|---|---|
| Tujuan | Memprediksi probabilitas dari dua kategori (mis. Success atau Failure) | Memprediksi probabilitas dari tiga atau lebih kategori (Low, Medium, High) |
| Variabel Dependen (Y) | Success (biner: 0 = gagal, 1 =
berhasil) |
Sales_Level (multinomial: Low, Medium,
High) |
| Variabel Independen (X) | Advertising, Salespeople, Satisfaction, Competition | Advertising, Salespeople, Satisfaction, Competition |
| Model Function | glm(..., family = binomial) |
multinom(...) dari package
nnet |
| Interpretasi Koefisien | Koefisien merepresentasikan perubahan log-odds untuk peluang keberhasilan (Success = 1) | Setiap kategori (Medium dan High) dibandingkan terhadap kategori referensi (Low) |
| Signifikansi Variabel | Advertising (p < 0.001) Salespeople (p < 0.001) Satisfaction (p = 0.002) Competition (p = 0.069) |
Satisfaction berpengaruh sangat kuat pada
Medium & High Advertising positif untuk High, negatif untuk Medium Competition negatif untuk semua kategori |
| Deviance / AIC | Residual Deviance = 63.617 AIC = 73.617 |
Residual Deviance = 1.518 AIC = 21.518 |
| Akurasi Model | Sekitar 93.5% (182 + 5 benar dari 200 observasi) | 100%, semua kategori diklasifikasikan dengan sempurna |
| Polarisasi Kelas | Hanya dua hasil akhir → cocok untuk keputusan ya/tidak | Lebih detail → bisa membedakan tingkat keberhasilan secara bertahap |
| Kelebihan | Sederhana dan interpretatif | Menangani banyak kategori sekaligus, fleksibel |
| Keterbatasan | Tidak bisa menangani >2 kategori | Interpretasi lebih kompleks dan rentan overfitting pada data kecil |
Referensi
https://www.statistikian.com/2013/01/transformasi-data.html
https://exsight.id/blog/2023/05/14/transformasi-data-part-1/