Tugas 1 Analysis & Predictive Modelling

Multinomial Logistics Regression

Foto Isnaini

1 Multinomial Logistics Regression

Multinomial Logistic Regression adalah perluasan dari binary logistic regression yang digunakan ketika variabel dependen (\(Y\)) memiliki lebih dari dua kategori yang bersifat nominal (tidak berurutan).

Contoh kasus: tingkat keberhasilan proyek (Low, Medium, High), jenis produk yang dipilih (A, B, C), atau keputusan pelanggan (beli A, beli B, tidak beli).

Tujuannya adalah untuk memodelkan probabilitas setiap kategori dari variabel dependen berdasarkan satu atau lebih variabel independen (\(X₁, X₂, X₃, …\)).Model ini memperkirakan peluang suatu observasi termasuk ke dalam masing-masing kategori.

Jika terdapat ( \(K\) ) kategori pada variabel dependen ( \(Y\) ), maka model memilih satu kategori sebagai kategori referensi (baseline) biasanya kategori terakhir. Kemudian, untuk setiap kategori ( \(k = 1, 2, ..., K-1\) ), model menghitung log odds dibandingkan dengan kategori referensi:

\[ \log\left(\frac{P(Y = k)}{P(Y = K)}\right) = \beta_{0k} + \beta_{1k}X_1 + \beta_{2k}X_2 + \cdots + \beta_{pk}X_p \]

Keterangan:

  • ( \(P(Y = k)\) ): probabilitas bahwa observasi termasuk kategori ke-( \(k\) )
  • ( \(P(Y = K)\) ): probabilitas kategori referensi
  • ( \(\beta_{0k}\) ): intercept untuk kategori ke-( \(k\) )
  • ( \(\beta_{ik}\)): koefisien variabel independen ( \(X_i\) ) terhadap kategori ke-( \(k\) )
  • ( \(X_i\) ): variabel prediktor (misalnya Budget, Satisfaction, Salespeople)

Probabilitas Setiap Kategori

Untuk setiap kategori ( \(k\) ), probabilitasnya dihitung menggunakan fungsi softmax:

\[ P(Y = k) = \frac{e^{\beta_{0k} + \beta_{1k}X_1 + \cdots + \beta_{pk}X_p}}{1 + \sum_{j=1}^{K-1} e^{\beta_{0j} + \beta_{1j}X_1 + \cdots + \beta_{pj}X_p}} \]

dan untuk kategori referensi ( \(K\) ):

\[ P(Y = K) = \frac{1}{1 + \sum_{j=1}^{K-1} e^{\beta_{0j} + \beta_{1j}X_1 + \cdots + \beta_{pj}X_p}} \]

  • Koefisien ( \(\beta_{ik}\) ) menunjukkan perubahan log odds kategori ( \(k\) ) relatif terhadap kategori referensi akibat perubahan satu unit pada ( \(X_i\) ).
  • Jika ( \(\beta_{ik} > 0\) ), maka peningkatan ( \(X_i\) ) meningkatkan peluang observasi termasuk ke kategori ( \(k\) ) dibandingkan dengan referensi.
  • Jika ( \(\beta_{ik} < 0\) ), maka efeknya sebaliknya.

2 Dataset

3 Membuat Model Multinomial Logistic Regression

## # weights:  18 (10 variable)
## initial  value 219.722458 
## iter  10 value 143.933108
## iter  20 value 9.020186
## iter  30 value 4.214189
## iter  40 value 3.504247
## iter  50 value 2.820396
## iter  60 value 2.303166
## iter  70 value 2.132932
## iter  80 value 1.624341
## iter  90 value 1.472079
## iter 100 value 1.195536
## final  value 1.195536 
## stopped after 100 iterations
## Call:
## multinom(formula = Success_Level ~ Advertising + Salespeople + 
##     Satisfaction + Competition, data = data)
## 
## Coefficients:
##        (Intercept) Advertising Salespeople Satisfaction Competition
## Medium   -226.9013    9.584952    5.806227     13.27848   -11.83763
## High     -478.6406   15.206729    9.860392     22.28077   -18.48662
## 
## Std. Errors:
##        (Intercept) Advertising Salespeople Satisfaction Competition
## Medium    114.0896    4.752920    2.913936     6.611718    5.784428
## High      201.4697    5.948203    4.036557     8.875431    7.155263
## 
## Residual Deviance: 2.391072 
## AIC: 22.39107

Hasil multinomial logistic regression menunjukkan bahwa faktor-faktor pemasaran seperti anggaran iklan (Advertising), jumlah tenaga penjual (Salespeople), kepuasan pelanggan (Satisfaction), dan tingkat kompetisi (Competition) secara bersama-sama berpengaruh terhadap tingkat keberhasilan kampanye pemasaran. Model menggunakan kategori Low sebagai pembanding, dan memperkirakan peluang suatu kampanye berada pada kategori Medium atau High dibanding Low.

Koefisien bertanda positif pada variabel Advertising, Salespeople, dan Satisfaction menunjukkan bahwa semakin besar anggaran iklan, semakin banyak tenaga penjual yang terlibat, dan semakin tinggi kepuasan pelanggan, maka kemungkinan kampanye mencapai keberhasilan Medium atau High meningkat secara signifikan dibandingkan Low. Sebaliknya, koefisien Competition yang negatif menandakan bahwa semakin tinggi tingkat persaingan pasar, semakin kecil peluang kampanye mencapai tingkat keberhasilan yang tinggi.

4 Melihat Nilai Statistik (Std. Error, z value, p value)

##        (Intercept) Advertising Salespeople Satisfaction Competition (Intercept)
## Medium   -226.9013    9.584952    5.806227     13.27848   -11.83763    114.0896
## High     -478.6406   15.206729    9.860392     22.28077   -18.48662    201.4697
##        Advertising Salespeople Satisfaction Competition (Intercept) Advertising
## Medium    4.752920    2.913936     6.611718    5.784428   -1.988799    2.016645
## High      5.948203    4.036557     8.875431    7.155263   -2.375745    2.556525
##        Salespeople Satisfaction Competition (Intercept) Advertising Salespeople
## Medium    1.992572     2.008326   -2.046466  0.04672342  0.04373261  0.04630833
## High      2.442773     2.510387   -2.583639  0.01751358  0.01057234  0.01457491
##        Satisfaction Competition
## Medium   0.04460871 0.040710564
## High     0.01205989 0.009776393

Kategori Medium vs Low

  • Advertising (β = 9.58, p ≈ 0.04) → Anggaran iklan berpengaruh positif dan signifikan, artinya peningkatan investasi iklan meningkatkan kemungkinan kampanye naik dari Low ke Medium.

  • Salespeople (β = 5.80, p ≈ 0.04) → Lebih banyak tenaga penjual secara nyata meningkatkan peluang keberhasilan tingkat menengah.

  • Satisfaction (β = 13.28, p ≈ 0.04) → Kepuasan pelanggan yang tinggi sangat mendorong peningkatan keberhasilan.

  • Competition (β = -11.84, p ≈ 0.04) → Persaingan pasar yang tinggi menurunkan peluang keberhasilan.

Kategori High vs Low

  • Advertising (β = 15.21, p ≈ 0.02) → Pengaruh positif dan signifikan. Semakin besar anggaran iklan, semakin tinggi peluang kampanye mencapai keberhasilan tinggi (High).

  • Salespeople (β = 9.86, p ≈ 0.01) → Jumlah tenaga penjual yang lebih banyak meningkatkan kemungkinan sukses penuh.

  • Satisfaction (β = 22.28, p ≈ 0.01) → Kepuasan pelanggan menjadi faktor paling kuat dalam menentukan keberhasilan tertinggi.

  • Competition (β = -18.49, p ≈ 0.01) → Kompetisi tinggi secara signifikan menurunkan peluang mencapai tingkat keberhasilan tertinggi.

Secara keseluruhan, hasil analisis Multinomial Logistic Regression menunjukkan bahwa faktor Satisfaction (kepuasan pelanggan) merupakan determinan paling kuat terhadap peningkatan Success Level, diikuti oleh Advertising dan Salespeople yang berpengaruh positif. Sebaliknya, Competition memiliki dampak negatif yang signifikan terhadap keberhasilan.

5 Evaluasi Akurasi Model

##          Actual
## Predicted Low Medium High
##    Low     42      0    0
##    Medium   0    122    0
##    High     0      0   36
## [1] 1

Hasil evaluasi model Multinomial Logistic Regression menunjukkan bahwa model mampu memprediksi tingkat keberhasilan kampanye pemasaran (Success Level) dengan akurasi sempurna sebesar 100%, di mana seluruh kategori aktual—Low, Medium, dan High—berhasil diprediksi dengan tepat tanpa kesalahan klasifikasi. Hal ini mengindikasikan bahwa kombinasi faktor Advertising, Salespeople, Satisfaction, dan Competition memiliki kemampuan yang sangat kuat dalam membedakan setiap tingkat keberhasilan. Dengan kata lain, peningkatan investasi iklan, jumlah tenaga penjual, serta kepuasan pelanggan yang tinggi secara konsisten berkontribusi terhadap keberhasilan yang lebih besar, sementara tingginya tingkat persaingan menjadi faktor yang menurunkan peluang sukses.

6 Visualisasi

## # weights:  18 (10 variable)
## initial  value 219.722458 
## iter  10 value 151.864225
## iter  20 value 127.803719
## iter  20 value 127.803718
## iter  20 value 127.803718
## final  value 127.803718 
## converged

7 Perbedaan Binary Logistic Regression dengan Multinomial Logistic Regression

Aspek Binary Logistic Regression Multinomial Logistic Regression
Jumlah kategori variabel dependen 2 kategori (misalnya: Yes/No, Lulus/Gagal, Beli/Tidak Beli) Lebih dari 2 kategori (misalnya: Low, Medium, High atau A, B, C)
Jenis kategori Bersifat biner (dua kelas) Bersifat nominal (bisa tiga atau lebih, tidak berurutan)
Fungsi link Logit: \(\log \frac{p}{1-p}\) Generalized Logit: \(\log \frac{P(Y=k)}{P(Y=K)}\) untuk setiap kategori (\(k\))
Persamaan umum \(\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p\) \(\log\left(\frac{P(Y=k)}{P(Y=K)}\right) = \beta_{0k} + \beta_{1k}X_1 + \cdots + \beta_{pk}X_p\), untuk \(k = 1, 2, ..., K-1\)
Metode estimasi Maximum Likelihood Estimation (MLE) Juga menggunakan MLE, tetapi menghitung parameter untuk setiap kategori relatif terhadap kategori referensi
Output model Probabilitas kejadian satu kategori (mis. sukses) Probabilitas setiap kategori (mis. Low, Medium, High) yang dijumlahkan = 1
Interpretasi koefisien Koefisien menunjukkan perubahan log odds kejadian satu kategori dibanding tidak terjadi Koefisien menunjukkan perubahan log odds kategori tertentu dibanding kategori referensi
Contoh kasus Prediksi apakah pelanggan membeli produk (Yes/No) Prediksi tingkat kepuasan pelanggan (Low–Medium–High)
Fungsi aktivasi Sigmoid Softmax
