Tugas Pertemuan 3: Analisis Model Prediksi
October 23, 2025
Bab 1 Multinomial Logistic Regression
Multinomial Logistic Regression digunakan ketika variabel dependen (Y) bersifat kategorikal dengan lebih dari dua kategori (multikategori), misalnya:
rendah, sedang, tinggi atau A, B, C.
Model ini digunakan untuk memprediksi probabilitas bahwa suatu observasi termasuk ke dalam salah satu kategori berdasarkan variabel-variabel independen.
Persamaan Multinomial Logistic Regression
Untuk setiap kategori ke-j (selain kategori referensi):
\[ P(Y = j|X) = \frac{e^{(\beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \cdots + \beta_{kj}X_k)}}{\sum_{m=1}^{J} e^{(\beta_{0m} + \beta_{1m}X_1 + \beta_{2m}X_2 + \cdots + \beta_{km}X_k)}} \]
di mana satu kategori (biasanya kategori terakhir) dijadikan sebagai kategori referensi (baseline).
Atau dalam bentuk logit (log-odds):
Untuk setiap kategori j relatif terhadap kategori referensi J:
\[ \log\left(\frac{P(Y=j|X)}{P(Y=J|X)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \cdots + \beta_{kj}X_k \]
- \(P(Y = j \mid X)\) : probabilitas bahwa observasi termasuk ke kategori j
- \(X_1, X_2, \ldots, X_k\) : variabel independen
- \(\beta_{0j}, \beta_{1j}, \ldots, \beta_{kj}\) : koefisien model untuk kategori j
- Kategori J digunakan sebagai kategori referensi (baseline) untuk perbandingan log-odds.
Interpretasi Koefisien:
- Koefisien ( \(\beta_{ij}\) ) mewakili perubahan log-odds dari kemungkinan memilih kategori j dibandingkan dengan kategori referensi J, untuk setiap kenaikan satu unit pada variabel ( \(X_i\) ), dengan variabel lainnya dianggap konstan.
- Untuk interpretasi yang lebih intuitif, gunakan rasio peluang (odds ratio) dengan: \[ e^{\beta_{ij}} \] Nilai ini menunjukkan seberapa besar peluang observasi termasuk ke kategori j dibandingkan J ketika ( \(X_i\) ) meningkat satu unit.
1.1 Pembuatan Model Multinomial Logistic Regression
1.1.1 Persiapan dan Import Data
## Advertising Salespeople Satisfaction
## Min. :1.667e+13 Min. :1.599e+12 Min. :9.721e+13
## 1st Qu.:1.329e+15 1st Qu.:1.263e+15 1st Qu.:2.352e+15
## Median :1.975e+15 Median :1.991e+15 Median :4.640e+15
## Mean :2.522e+15 Mean :1.950e+15 Mean :4.872e+15
## 3rd Qu.:2.710e+15 3rd Qu.:2.812e+15 3rd Qu.:7.364e+15
## Max. :9.692e+15 Max. :3.478e+15 Max. :9.970e+15
## Competition Success_Level
## Min. :2.485e+13 Length:200
## 1st Qu.:2.315e+15 Class :character
## Median :4.764e+15 Mode :character
## Mean :4.807e+15
## 3rd Qu.:7.419e+15
## Max. :9.930e+15
1.1.1.1 Interpretasi Hasil Statistika Deskriptif
- Data berisi 200 observasi dengan 4 variabel numerik utama dan 1 variabel kategorikal target.
- Semua variabel numerik memiliki skala nilai yang sangat besar (orde 10¹³–10¹⁶) → perlu normalisasi atau standarisasi.
- Distribusi data cenderung positif (right-skewed) pada beberapa variabel seperti Advertising dan Satisfaction, menandakan adanya nilai ekstrem tinggi.
1.1.2 Menentukan Variabel Dependen dan Independen
Dalam model ini, ditetapkan:
- Variabel dependen: Success_Level (kategori: Low, Medium, High)
- Variabel independen: Advertising, Salespeople, Satisfaction, Competition
## Factor w/ 3 levels "Low","Medium",..: 1 3 2 3 3 1 2 2 1 1 ...
##
## Low Medium High
## 66 66 68
Variabel Success_Level terdiri dari tiga kategori — Low, Medium, dan High — dengan jumlah data yang relatif seimbang (66, 66, dan 68). Distribusi ini ideal untuk digunakan dalam model Multinomial Logistic Regression karena tidak menunjukkan ketidakseimbangan kelas yang signifikan.
1.1.3 Membuat Model Multinomial Logistic Regression
## # weights: 18 (10 variable)
## initial value 219.722458
## final value 219.722458
## converged
##
## AIC: 459.4449
## Category Predictor Estimate Std.Error z.value p.value
## 1 Medium (Intercept) -2.345625e-32 NaN NaN NaN
## 2 Medium Advertising -6.294079e-16 4.226550e-16 -1.4891765 1.364409e-01
## 3 Medium Salespeople 2.166003e-16 4.748291e-16 0.4561649 6.482714e-01
## 4 Medium Satisfaction -5.775766e-16 3.951824e-16 -1.4615444 1.438661e-01
## 5 Medium Competition -1.128020e-16 1.757905e-16 -0.6416843 5.210782e-01
## 6 High (Intercept) 4.691250e-32 NaN NaN NaN
## 7 High Advertising -7.918943e-16 1.316661e-16 -6.0144137 1.805389e-09
## 8 High Salespeople 8.561553e-16 1.807983e-16 4.7354166 2.186055e-06
## 9 High Satisfaction 4.864593e-16 8.430739e-17 5.7700669 7.924006e-09
## 10 High Competition -3.219946e-16 6.919014e-17 -4.6537641 3.259297e-06
1.1.3.1 Interpretasi Model Multinomial Logistic Regression
Model multinomial logistic regression berhasil berkonvergensi dan memberikan hasil estimasi yang valid dengan nilai AIC sebesar 459.44, menandakan model memiliki tingkat kecocokan yang wajar.
Untuk kategori Medium vs Low, seluruh variabel prediktor memiliki nilai p-value di atas 0.05. Hal ini berarti tidak ada pengaruh signifikan secara statistik dari Advertising, Salespeople, Satisfaction, maupun Competition terhadap kemungkinan berada pada kategori Medium Success.
Sebaliknya, untuk kategori High vs Low, seluruh variabel prediktor memiliki nilai p-value < 0.01, menunjukkan pengaruh yang signifikan secara statistik, dengan arah pengaruh sebagai berikut:
- Advertising (-) → peningkatan aktivitas iklan justru menurunkan peluang keberhasilan tinggi.
- Salespeople (+) → jumlah tenaga penjualan yang lebih banyak meningkatkan peluang keberhasilan tinggi.
- Satisfaction (+) → tingkat kepuasan pelanggan yang tinggi berkontribusi positif terhadap keberhasilan.
- Competition (-) → persaingan yang meningkat menurunkan peluang keberhasilan.
Kesimpulan Umum
Model menunjukkan bahwa faktor internal seperti Salespeople dan Satisfaction berperan penting dalam meningkatkan tingkat keberhasilan (High Success Level), sedangkan faktor eksternal seperti Advertising dan Competition justru memiliki dampak negatif jika tidak dikelola dengan baik. Secara keseluruhan, hasil ini mempertegas bahwa strategi pemasaran berbasis kualitas pelayanan dan tenaga penjualan lebih efektif dibandingkan peningkatan promosi semata.
1.1.4 Evaluasi Model
## Actual
## Predicted Low Medium High
## Low 35 23 22
## Medium 0 0 0
## High 31 43 46
## [1] 0.405
1.1.4.1 Interpretasi Confusion Matrix dan Akurasi
- Akurasi keseluruhan: 40,5% → model masih kurang akurat.
Prediksi per kelas:
- Kelas Medium tidak pernah terprediksi → model gagal mengenali kategori ini.
- Kelas Low hanya 35 prediksi benar, sisanya salah diklasifikasikan.
- Kelas High 46 prediksi benar, tetapi banyak kasus Low dan Medium juga salah diklasifikasikan sebagai High.
Kesimpulan: Model bias ke kelas High dan tidak mampu membedakan semua kategori dengan baik, kemungkinan akibat class imbalance atau hubungan variabel prediktor yang lemah.
1.1.5 Visualisasi Interaktif
1.1.5.1 Interpretasi Visualisasi
Visualisasi di atas menunjukkan hasil pemodelan Multinomial Logistic Regression untuk memprediksi tingkat keberhasilan (Success Level) berdasarkan variabel Advertising, Salespeople, Satisfaction, dan Competition. Terlihat bahwa Salespeople berpengaruh positif terhadap peluang masuk kategori High Success, sedangkan Advertising cenderung menurun seiring peningkatan nilai, menandakan efek iklan yang tidak selalu efektif.
Satisfaction menunjukkan pola non-linear — peluang keberhasilan meningkat pada tingkat kepuasan sedang namun menurun kembali setelah melewati titik tertentu. Sementara itu, Competition berhubungan negatif dengan keberhasilan, di mana semakin tinggi persaingan, semakin rendah probabilitas sukses. Nilai AIC = 459.44 menunjukkan model cukup sesuai, dengan indikasi bahwa faktor tenaga penjual dan kepuasan berperan positif, sedangkan kompetisi dan iklan berlebihan menjadi penghambat utama.
1.2 Perbandingan Model Multinomial Logistic Regression dengan Binary Logistic Regression
Model regresi logistik biner yang dihasilkan adalah:
\[ \text{logit}(p) = -6.01 + 0.19(\text{Advertising}) + 0.28(\text{Salespeople}) + 0.42(\text{Satisfaction}) - 0.27(\text{Competition}) \]
dengan akurasi sebesar 93.6% dan nilai AIC = 73.62.
Dari model multinomial saat ini diperoleh:
- Akurasi = 40.5%
- AIC = 459.4449155
| Model | Jenis | Akurasi | AIC | Keterangan |
|---|---|---|---|---|
| Binary Logistic Regression | 2 Kategori | 93.6% | 73.62 | Lebih sederhana dan akurat |
| Multinomial Logistic Regression | 3 Kategori (Low, Medium, High) | 40.5% | 459.4449155 | Memberi insight lebih detail |
1.2.1 KESIMPULAN
- Binary logistic regression memberikan akurasi yang lebih tinggi, tetapi hanya bisa membedakan dua kondisi (sukses/tidak).
- Multinomial logistic regression memberikan pandangan yang lebih kaya terhadap tingkatan keberhasilan (Low, Medium, High), meskipun akurasinya lebih rendah.
Pemilihan model tergantung pada tujuan analisis:
- Jika fokusnya pada keberhasilan biner, gunakan Binary Logistic Regression.
- Jika fokus pada memahami tingkatan keberhasilan, gunakan Multinomial Logistic Regression.
1.3 Referensi
O’Brien, K. (n.d.). Multinomial logistic regression with R. RPubs. Retrieved October 21, 2025, from https://rpubs.com/DragonflyStats/Multinomial-Logistic-Regression
UCLA Institute for Digital Research and Education. (n.d.). Multinomial Logistic Regression | R Data Analysis Examples. Retrieved October 21, 2025, from https://stats.oarc.ucla.edu/r/dae/multinomial-logistic-regression/