Code
Tugas 1 Analysis & Predictive Modelling
Multinomial Logistics Regression
Multinomial
Logistics Regression
Multinomial Logistic Regression adalah perluasan
dari binary logistic regression yang digunakan ketika variabel dependen
(\(Y\) ) memiliki lebih dari dua
kategori yang bersifat nominal (tidak berurutan).
Contoh kasus: tingkat keberhasilan proyek (Low, Medium, High), jenis
produk yang dipilih (A, B, C), atau keputusan pelanggan (beli A, beli B,
tidak beli).
Tujuannya adalah untuk memodelkan probabilitas setiap kategori dari
variabel dependen berdasarkan satu atau lebih variabel independen (\(X₁, X₂, X₃, …\) ).Model ini memperkirakan
peluang suatu observasi termasuk ke dalam masing-masing kategori.
Jika terdapat ( \(K\) ) kategori
pada variabel dependen ( \(Y\) ), maka
model memilih satu kategori sebagai kategori referensi (baseline)
biasanya kategori terakhir. Kemudian, untuk setiap kategori ( \(k = 1, 2, ..., K-1\) ), model menghitung
log odds dibandingkan dengan kategori referensi:
\[
\log\left(\frac{P(Y = k)}{P(Y = K)}\right) = \beta_{0k} + \beta_{1k}X_1
+ \beta_{2k}X_2 + \cdots + \beta_{pk}X_p
\]
Keterangan:
( \(P(Y = k)\) ): probabilitas
bahwa observasi termasuk kategori ke-( \(k\) )
( \(P(Y = K)\) ): probabilitas
kategori referensi
( \(\beta_{0k}\) ): intercept untuk
kategori ke-( \(k\) )
( \(\beta_{ik}\) ): koefisien
variabel independen ( \(X_i\) )
terhadap kategori ke-( \(k\) )
( \(X_i\) ): variabel prediktor
(misalnya Budget, Satisfaction, Salespeople)
Probabilitas Setiap Kategori
Untuk setiap kategori ( \(k\) ),
probabilitasnya dihitung menggunakan fungsi softmax:
\[
P(Y = k) = \frac{e^{\beta_{0k} + \beta_{1k}X_1 + \cdots +
\beta_{pk}X_p}}{1 + \sum_{j=1}^{K-1} e^{\beta_{0j} + \beta_{1j}X_1 +
\cdots + \beta_{pj}X_p}}
\]
dan untuk kategori referensi ( \(K\)
):
\[
P(Y = K) = \frac{1}{1 + \sum_{j=1}^{K-1} e^{\beta_{0j} + \beta_{1j}X_1 +
\cdots + \beta_{pj}X_p}}
\]
Koefisien ( \(\beta_{ik}\) )
menunjukkan perubahan log odds kategori ( \(k\) ) relatif terhadap kategori referensi
akibat perubahan satu unit pada ( \(X_i\) ).
Jika ( \(\beta_{ik} > 0\) ),
maka peningkatan ( \(X_i\) )
meningkatkan peluang observasi termasuk ke kategori ( \(k\) ) dibandingkan dengan referensi.
Jika ( \(\beta_{ik} < 0\) ),
maka efeknya sebaliknya.
Membuat Model
Multinomial Logistic Regression
## # weights: 18 (10 variable)
## initial value 219.722458
## iter 10 value 143.933108
## iter 20 value 9.020186
## iter 30 value 4.214189
## iter 40 value 3.504247
## iter 50 value 2.820396
## iter 60 value 2.303166
## iter 70 value 2.132932
## iter 80 value 1.624341
## iter 90 value 1.472079
## iter 100 value 1.195536
## final value 1.195536
## stopped after 100 iterations
## Call:
## multinom(formula = Success_Level ~ Advertising + Salespeople +
## Satisfaction + Competition, data = data)
##
## Coefficients:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium -226.9013 9.584952 5.806227 13.27848 -11.83763
## High -478.6406 15.206729 9.860392 22.28077 -18.48662
##
## Std. Errors:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium 114.0896 4.752920 2.913936 6.611718 5.784428
## High 201.4697 5.948203 4.036557 8.875431 7.155263
##
## Residual Deviance: 2.391072
## AIC: 22.39107
Hasil multinomial logistic regression menunjukkan bahwa faktor-faktor
pemasaran seperti anggaran iklan (Advertising), jumlah tenaga penjual
(Salespeople), kepuasan pelanggan (Satisfaction), dan tingkat kompetisi
(Competition) secara bersama-sama berpengaruh terhadap tingkat
keberhasilan kampanye pemasaran. Model menggunakan kategori Low sebagai
pembanding, dan memperkirakan peluang suatu kampanye berada pada
kategori Medium atau High dibanding Low.
Koefisien bertanda positif pada variabel Advertising, Salespeople,
dan Satisfaction menunjukkan bahwa semakin besar anggaran iklan, semakin
banyak tenaga penjual yang terlibat, dan semakin tinggi kepuasan
pelanggan, maka kemungkinan kampanye mencapai keberhasilan Medium atau
High meningkat secara signifikan dibandingkan Low. Sebaliknya, koefisien
Competition yang negatif menandakan bahwa semakin tinggi tingkat
persaingan pasar, semakin kecil peluang kampanye mencapai tingkat
keberhasilan yang tinggi.
Melihat Nilai Statistik
(Std. Error, z value, p value)
## (Intercept) Advertising Salespeople Satisfaction Competition (Intercept)
## Medium -226.9013 9.584952 5.806227 13.27848 -11.83763 114.0896
## High -478.6406 15.206729 9.860392 22.28077 -18.48662 201.4697
## Advertising Salespeople Satisfaction Competition (Intercept) Advertising
## Medium 4.752920 2.913936 6.611718 5.784428 -1.988799 2.016645
## High 5.948203 4.036557 8.875431 7.155263 -2.375745 2.556525
## Salespeople Satisfaction Competition (Intercept) Advertising Salespeople
## Medium 1.992572 2.008326 -2.046466 0.04672342 0.04373261 0.04630833
## High 2.442773 2.510387 -2.583639 0.01751358 0.01057234 0.01457491
## Satisfaction Competition
## Medium 0.04460871 0.040710564
## High 0.01205989 0.009776393
Kategori Medium vs Low
Advertising (β = 9.58, p ≈ 0.04) → Anggaran iklan berpengaruh
positif dan signifikan, artinya peningkatan investasi iklan meningkatkan
kemungkinan kampanye naik dari Low ke Medium.
Salespeople (β = 5.80, p ≈ 0.04) → Lebih banyak tenaga penjual
secara nyata meningkatkan peluang keberhasilan tingkat
menengah.
Satisfaction (β = 13.28, p ≈ 0.04) → Kepuasan pelanggan yang
tinggi sangat mendorong peningkatan keberhasilan.
Competition (β = -11.84, p ≈ 0.04) → Persaingan pasar yang tinggi
menurunkan peluang keberhasilan.
Kategori High vs Low
Advertising (β = 15.21, p ≈ 0.02) → Pengaruh positif dan
signifikan. Semakin besar anggaran iklan, semakin tinggi peluang
kampanye mencapai keberhasilan tinggi (High).
Salespeople (β = 9.86, p ≈ 0.01) → Jumlah tenaga penjual yang
lebih banyak meningkatkan kemungkinan sukses penuh.
Satisfaction (β = 22.28, p ≈ 0.01) → Kepuasan pelanggan menjadi
faktor paling kuat dalam menentukan keberhasilan tertinggi.
Competition (β = -18.49, p ≈ 0.01) → Kompetisi tinggi secara
signifikan menurunkan peluang mencapai tingkat keberhasilan
tertinggi.
Secara keseluruhan, hasil analisis Multinomial Logistic Regression
menunjukkan bahwa faktor Satisfaction (kepuasan pelanggan) merupakan
determinan paling kuat terhadap peningkatan Success Level, diikuti oleh
Advertising dan Salespeople yang berpengaruh positif. Sebaliknya,
Competition memiliki dampak negatif yang signifikan terhadap
keberhasilan.
Evaluasi Akurasi
Model
## Actual
## Predicted Low Medium High
## Low 42 0 0
## Medium 0 122 0
## High 0 0 36
## [1] 1
Hasil evaluasi model Multinomial Logistic Regression menunjukkan
bahwa model mampu memprediksi tingkat keberhasilan kampanye pemasaran
(Success Level) dengan akurasi sempurna sebesar 100%, di mana seluruh
kategori aktual—Low, Medium, dan High—berhasil diprediksi dengan tepat
tanpa kesalahan klasifikasi. Hal ini mengindikasikan bahwa kombinasi
faktor Advertising, Salespeople, Satisfaction, dan Competition memiliki
kemampuan yang sangat kuat dalam membedakan setiap tingkat keberhasilan.
Dengan kata lain, peningkatan investasi iklan, jumlah tenaga penjual,
serta kepuasan pelanggan yang tinggi secara konsisten berkontribusi
terhadap keberhasilan yang lebih besar, sementara tingginya tingkat
persaingan menjadi faktor yang menurunkan peluang sukses.
Visualisasi
## # weights: 18 (10 variable)
## initial value 219.722458
## iter 10 value 151.864225
## iter 20 value 127.803719
## iter 20 value 127.803718
## iter 20 value 127.803718
## final value 127.803718
## converged
Perbedaan Binary
Logistic Regression dengan Multinomial Logistic Regression
Jumlah kategori variabel dependen
2 kategori (misalnya: Yes/No ,
Lulus/Gagal , Beli/Tidak Beli )
Lebih dari 2 kategori (misalnya: Low ,
Medium , High atau A , B ,
C )
Jenis kategori
Bersifat biner (dua kelas)
Bersifat nominal (bisa tiga atau lebih, tidak
berurutan)
Fungsi link
Logit: \(\log
\frac{p}{1-p}\)
Generalized Logit: \(\log
\frac{P(Y=k)}{P(Y=K)}\) untuk setiap kategori (\(k\) )
Persamaan umum
\(\log\left(\frac{p}{1-p}\right) = \beta_0 +
\beta_1X_1 + \cdots + \beta_pX_p\)
\(\log\left(\frac{P(Y=k)}{P(Y=K)}\right) =
\beta_{0k} + \beta_{1k}X_1 + \cdots + \beta_{pk}X_p\) , untuk
\(k = 1, 2, ..., K-1\)
Metode estimasi
Maximum Likelihood Estimation (MLE)
Juga menggunakan MLE, tetapi menghitung parameter untuk
setiap kategori relatif terhadap kategori referensi
Output model
Probabilitas kejadian satu kategori (mis. sukses)
Probabilitas setiap kategori (mis. Low, Medium, High)
yang dijumlahkan = 1
Interpretasi koefisien
Koefisien menunjukkan perubahan log odds
kejadian satu kategori dibanding tidak terjadi
Koefisien menunjukkan perubahan log odds
kategori tertentu dibanding kategori referensi
Contoh kasus
Prediksi apakah pelanggan membeli produk (Yes/No)
Prediksi tingkat kepuasan pelanggan
(Low–Medium–High )
Fungsi aktivasi
Sigmoid
Softmax
