Analisis Model Prediksi

Multinomial Logistik

Mohammad Riyadh

Pendahuluan

Pengertian Regresi Logistik Multinomial

Regresi logistik multinomial digunakan ketika variabel dependen (Y) memiliki lebih dari dua kategori dan tidak memiliki urutan alami (non-ordinal).Berbeda dengan regresi logistik biner yang hanya memprediksi dua hasil (misalnya: sukses/gagal), model ini dapat memprediksi probabilitas suatu observasi termasuk ke dalam salah satu dari beberapa kategori.

Contoh:
Dalam dataset ini, variabel dependen adalah Success_Level dengan tiga kategori yaitu Low, Medium, dan High, sedangkan variabel independen terdiri dari:

  • Advertising

  • Salespeople

  • Satisfaction

  • Competition

Model akan memprediksi peluang suatu perusahaan berada pada level keberhasilan tertentu berdasarkan faktor-faktor di atas.

Rumus Regresi Logistik Multinomial

Secara umum, persamaan untuk kategori ke-j adalah:

\[ \log\left(\frac{P(Y=j)}{P(Y=\text{base})}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + ... + \beta_{pj}X_p \]

Keterangan: - \(P(Y=j)\) = probabilitas bahwa observasi termasuk kategori j

  • \(P(Y=\text{base})\) = probabilitas kategori referensi (misal “Low”)

  • \(\beta_{0j}, \beta_{1j}, ...\) = parameter model untuk kategori j

Model ini akan menghasilkan \((k−1)\) set koefisien, karena satu kategori dijadikan pembanding.

Kegunaan Regresi Logistik Multinomial

  • Memprediksi hasil dengan lebih dari dua kategori.

  • Mengetahui pengaruh masing-masing variabel independen terhadap peluang masuk ke kategori tertentu.

  • Aplikasinya antara lain: prediksi tingkat kepuasan pelanggan, preferensi produk, status pekerjaan, atau tingkat keberhasilan bisnis.

1. Import dan Eksplorasi Dataset

## Struktur Dataset:
## tibble [200 × 5] (S3: tbl_df/tbl/data.frame)
##  $ Advertising  : num [1:200] 1.22e+15 2.47e+15 1.52e+14 2.71e+15 2.85e+15 ...
##  $ Salespeople  : num [1:200] 1.60e+15 3.41e+15 2.50e+15 2.29e+15 2.01e+15 ...
##  $ Satisfaction : num [1:200] 9.87e+15 2.23e+15 9.15e+15 6.19e+15 4.56e+15 ...
##  $ Competition  : num [1:200] 3.14e+15 7.18e+15 3.03e+15 3.87e+15 2.57e+14 ...
##  $ Success_Level: Factor w/ 3 levels "Low","Medium",..: 1 3 2 3 3 1 2 2 1 1 ...
## 
## Ringkasan Statistik Dataset:
##   Advertising         Salespeople         Satisfaction      
##  Min.   :1.667e+13   Min.   :1.599e+12   Min.   :9.721e+13  
##  1st Qu.:1.329e+15   1st Qu.:1.263e+15   1st Qu.:2.352e+15  
##  Median :1.975e+15   Median :1.991e+15   Median :4.640e+15  
##  Mean   :2.522e+15   Mean   :1.950e+15   Mean   :4.872e+15  
##  3rd Qu.:2.710e+15   3rd Qu.:2.812e+15   3rd Qu.:7.364e+15  
##  Max.   :9.692e+15   Max.   :3.478e+15   Max.   :9.970e+15  
##   Competition        Success_Level
##  Min.   :2.485e+13   Low   :66    
##  1st Qu.:2.315e+15   Medium:66    
##  Median :4.764e+15   High  :68    
##  Mean   :4.807e+15                
##  3rd Qu.:7.419e+15                
##  Max.   :9.930e+15
Advertising Salespeople Satisfaction Competition Success_Level
1.218944e+15 1.596815e+15 9.874489e+15 3.135067e+15 Low
2.470763e+15 3.405897e+15 2.233607e+15 7.178413e+15 High
1.522442e+14 2.503414e+15 9.147786e+15 3.032366e+15 Medium
2.707544e+15 2.287574e+15 6.186717e+15 3.866451e+15 High
2.851168e+15 2.006433e+15 4.559040e+15 2.565854e+14 High
6.138912e+15 3.200616e+14 5.048222e+15 8.212866e+15 Low
1.820264e+15 1.910230e+15 7.358517e+15 2.316539e+15 Medium
2.731048e+15 1.720598e+15 1.742525e+15 8.404457e+15 Medium
1.878588e+15 1.426613e+15 4.053813e+15 3.978980e+15 Low
1.641537e+15 1.430429e+15 7.127088e+14 4.367524e+15 Low

Penjelasan

  • read_delim() digunakan untuk membaca file CSV dengan pemisah titik koma (“;”).

  • mutate() mengonversi kolom numerik agar dikenali sebagai angka (numeric) dengan menghapus tanda titik (gsub("\\.", "", ...)).

  • factor() digunakan untuk menjadikan variabel Success_Level sebagai variabel kategorikal.

  • str() menunjukkan struktur dataset (jenis data tiap kolom).

  • summary() memberikan ringkasan statistik seperti rata-rata, min, dan max.

  • datatable() membuat tabel interaktif agar pengguna dapat menjelajah data dengan mudah di output HTML.

  1. Dataset yang digunakan berisi variabel prediktor numerik seperti:
  • Advertising → jumlah pengeluaran iklan,

  • Salespeople → jumlah tenaga penjualan,

  • Satisfaction → tingkat kepuasan pelanggan,

  • Competition → tingkat persaingan pasar.

Semua variabel ini telah dikonversi ke format numerik agar dapat dianalisis dengan benar oleh model regresi.

  1. Variabel target (Success_Level) memiliki tiga kategori bertingkat (Low, Medium, High) yang merepresentasikan tingkat keberhasilan suatu cabang, produk, atau strategi pemasaran.

3.Berdasarkan statistik deskriptif, dapat diamati apakah:

  • terdapat variasi cukup besar antar observasi,

-distribusi antar kategori Success_Level relatif seimbang atau tidak. Jika salah satu kategori jauh lebih banyak, hal ini perlu diperhatikan karena dapat memengaruhi akurasi model (class imbalance).

Kesimpulan Awal: Data sudah bersih dan siap untuk digunakan dalam proses pemodelan regresi logistik multinomial. Tahap eksplorasi ini penting agar analisis yang dilakukan pada langkah berikutnya (pembangunan model) memiliki dasar data yang valid dan konsisten.

2. Pembangunan Model Regresi Logistik Multinomial

## # weights:  18 (10 variable)
## initial  value 219.722458 
## final  value 219.722458 
## converged
## Call:
## multinom(formula = Success_Level ~ Advertising + Salespeople + 
##     Satisfaction + Competition, data = data_multi)
## 
## Coefficients:
##          (Intercept)   Advertising  Salespeople  Satisfaction   Competition
## Medium -2.345625e-32 -6.294079e-16 2.166003e-16 -5.775766e-16 -1.128020e-16
## High    4.691250e-32 -7.918943e-16 8.561553e-16  4.864593e-16 -3.219946e-16
## 
## Std. Errors:
##         (Intercept)  Advertising  Salespeople Satisfaction  Competition
## Medium          NaN 4.226550e-16 4.748291e-16 3.951824e-16 1.757905e-16
## High   1.273623e-31 1.316661e-16 1.807983e-16 8.430739e-17 6.919014e-17
## 
## Residual Deviance: 439.4449 
## AIC: 459.4449

Penjelasan

  • nnet::multinom() digunakan untuk membangun model regresi logistik multinomial.

  • Sintaks Y ~ X1 + X2 + ... menunjukkan bahwa variabel Success_Level diprediksi berdasarkan empat variabel independen.

  • Output summary(model_multi) menampilkan koefisien untuk setiap kategori relatif terhadap kategori referensi (“Low”).

  • Koefisien positif menunjukkan peningkatan peluang masuk ke kategori tertentu dibandingkan kategori referensi, sedangkan koefisien negatif menunjukkan penurunan peluang.

  1. Model berhasil dijalankan dan konvergen, namun nilai likelihood tidak berubah dari awal ke akhir. Ini menunjukkan model tidak belajar pola apapun dari data.

  2. Semua koefisien ≈ 0 dan standar error sangat kecil, artinya:

  • Tidak ada pengaruh signifikan dari variabel Advertising, Salespeople, Satisfaction, dan Competition terhadap Success_Level.

  • Kemungkinan besar hubungan antara variabel independen dan dependen sangat lemah atau non-linear.

  1. Kemungkinan penyebab:
  • Data tidak cukup bervariasi atau jumlah observasi terlalu sedikit.

  • Ada multikolinearitas (variabel-variabel prediktor saling berkorelasi tinggi).

  • Distribusi kategori Success_Level tidak seimbang (misalnya mayoritas data pada “Medium” atau “Low”).

  • Model multinomial logistik mungkin tidak cocok secara teoretis dengan pola hubungan dalam dataset (misal hubungan sebenarnya lebih kompleks atau tidak logistik).

  1. Dampak terhadap akurasi:
  • Karena model tidak menemukan hubungan yang kuat, hasil prediksi cenderung acak.

  • Hal inilah yang menjelaskan mengapa akurasi hanya sekitar 40% (pada langkah evaluasi sebelumnya). Nilai 40% menunjukkan bahwa model hanya sedikit lebih baik dari tebakan acak (random guess) pada tiga kategori.

3. Interpretasi Koefisien

(Intercept) Advertising Salespeople Satisfaction Competition
Medium 1 1 1 1 1
High 1 1 1 1 1
## 
## Interpretasi Umum:
## - Nilai exp(koefisien) > 1 menunjukkan peningkatan peluang masuk ke kategori tersebut dibanding kategori referensi (Low).
## - Nilai exp(koefisien) < 1 menunjukkan penurunan peluang relatif terhadap kategori referensi.

Penjelasan

  • Karena model logistik menggunakan log-odds, maka untuk interpretasi yang lebih mudah, hasil koefisien diubah menjadi odds ratio dengan exp(coef()).

  • Odds ratio menggambarkan berapa kali peluang meningkat untuk setiap kenaikan satu satuan pada variabel independen.

    • Contoh: Jika odds ratio untuk Advertising = 1.5, berarti setiap kenaikan satu unit anggaran iklan meningkatkan peluang naik ke kategori “Medium” sebesar 1.5 kali dibandingkan “Low”.

4. Evaluasi Model

Tabel 4. Matriks Kebingungan Model Multinomial Logistic Regression
Low Medium High
Low 35 23 22
Medium 0 0 0
High 31 43 46
## 
## Akurasi Model: 40.5 %

Penjelasan

  • predict() menghasilkan kategori prediksi berdasarkan model yang dibangun.

  • table() membuat confusion matrix untuk membandingkan hasil prediksi dan nilai aktual.

  • mean(prediksi == aktual) menghitung proporsi observasi yang berhasil diprediksi dengan benar.

  • Nilai akurasi (%) memberikan ukuran kinerja model secara keseluruhan.

  • Semakin tinggi akurasi, semakin baik model dalam memprediksi kategori.

Tambah Penjelasan

Berdasarkan hasil evaluasi menggunakan Multinomial Logistic Regression, diperoleh nilai akurasi sebesar 40%. Artinya, model hanya mampu memprediksi dengan benar sekitar 40% dari seluruh observasi pada dataset.

Meskipun nilai ini relatif rendah, hasil tersebut memberikan informasi penting bahwa model belum mampu secara optimal membedakan kategori keberhasilan (Success_Level) antara Low, Medium, dan High.

Beberapa kemungkinan penyebab rendahnya akurasi adalah sebagai berikut:

  • Ketidak seimbangan Kelas (Class Imbalance) Kemungkinan distribusi data antar kategori Success_Level tidak seimbang — misalnya jumlah observasi pada kategori High jauh lebih sedikit dibanding Medium atau Low. Kondisi ini menyebabkan model “bias” terhadap kelas mayoritas sehingga akurasi keseluruhan menurun.

  • Variabel Prediktor Kurang Informatif Beberapa variabel independen seperti Advertising, Competition, atau Satisfaction mungkin tidak memiliki pengaruh yang signifikan terhadap target. Akibatnya, kemampuan model untuk memisahkan kategori keberhasilan menjadi terbatas.

  • Hubungan Antar Variabel Tidak Linear Regresi logistik mengasumsikan hubungan linier antara logit (peluang log) dan prediktor. Jika hubungan antar variabel bersifat non-linear atau interaktif, model tidak dapat menangkap pola kompleks tersebut tanpa transformasi atau penambahan interaksi variabel.

  • Ukuran Data Relatif Kecil Apabila jumlah observasi dalam dataset sedikit, model akan kesulitan mengenali pola umum dan cenderung overfit atau underfit. Hal ini menurunkan kemampuan generalisasi model terhadap data aktual.

  • Belum Dilakukan Optimasi Model Model ini masih menggunakan bentuk dasar tanpa seleksi fitur, transformasi, atau penambahan interaksi variabel. Tanpa optimasi, model hanya menangkap hubungan paling sederhana antar variabel.

Kesimpulan

Nilai akurasi sebesar 40% menunjukkan bahwa model masih perlu dilakukan peningkatan (model refinement) melalui optimasi variabel, transformasi data, atau metode machine learning alternatif agar dapat memberikan hasil prediksi yang lebih akurat dan stabil.

5. Visualisasi Hasil

Penjelasan

  • predict(..., type = "probs") menghasilkan probabilitas tiap kategori untuk setiap observasi.

  • Data diubah ke format “long” agar bisa divisualisasikan dengan ggplot2.

  • geom_point() menampilkan titik observasi, sedangkan geom_smooth() menggambarkan pola hubungan menggunakan kurva LOESS.

  • Plot menunjukkan bagaimana perubahan anggaran iklan (Advertising) memengaruhi peluang tiap kategori keberhasilan.

  • Misalnya, jika garis kategori “High” meningkat dengan bertambahnya Advertising, berarti semakin besar iklan → peluang sukses tinggi meningkat.

(Visualisasi LOESS Curve)

  • Garis biru (Low) menurun ketika nilai Advertising meningkat.

  • Garis oranye (Medium) naik perlahan pada pertengahan nilai Advertising.

  • Garis hijau (High) meningkat tajam pada anggaran iklan tinggi (>1500).

Interpretasi visual:

Semakin besar anggaran iklan, semakin besar pula probabilitas perusahaan mencapai tingkat keberhasilan High.

6. Kesimpulan dan Interpretasi Model

## 
## Model regresi logistik multinomial menunjukkan hubungan antara faktor-faktor seperti Advertising, Salespeople, Satisfaction, dan Competition terhadap peluang keberhasilan perusahaan.
## 
## Model ini dapat memprediksi probabilitas masing-masing kategori keberhasilan (Low, Medium, High) dan memberikan insight mengenai pengaruh setiap faktor terhadap keberhasilan bisnis.
## 
## Secara umum:
## - Peningkatan nilai Advertising dan Satisfaction cenderung meningkatkan peluang masuk ke kategori Medium dan High.
## - Faktor Competition yang terlalu tinggi dapat menurunkan peluang keberhasilan.
## - Model memberikan gambaran probabilistik, bukan hasil pasti, sehingga berguna untuk pengambilan keputusan berbasis data.

Penjelasan Akhir

  • Kesimpulan menekankan interpretasi dari seluruh hasil model.

  • Analisis ini bermanfaat untuk menentukan strategi bisnis, misalnya mengalokasikan lebih banyak anggaran pada iklan atau meningkatkan kepuasan pelanggan untuk meningkatkan peluang keberhasilan.

Ringkasan Alur Analisis

  1. Import dan eksplorasi dataset → memastikan data bersih dan terstruktur.

  2. Pembangunan model → membentuk hubungan antara variabel prediktor dan outcome.

  3. Interpretasi koefisien & odds ratio → memahami arah dan besarnya pengaruh.

  4. Evaluasi model → melihat kinerja model (akurasi & matriks kebingungan).

  5. Visualisasi → mempermudah interpretasi hubungan antar variabel.

  6. Kesimpulan → memberikan insight nyata untuk pengambilan keputusan.

Referensi

  • Lipovetsky, S. (2021). Logistic and multinomial-logit models: A brief review on their modifications. Mathematical & Computer Modelling of Dynamical Systems.

  • Liang, J., Bi, G., & Zhan, C. (2019). Multinomial and ordinal logistic regression analyses with multi-categorical variables using R. Frontiers in Public Health.

  • Pate, A., Riley, R.D., Collins, G.S., van Smeden, M., Ensor, J., & Martin, G.P. (2022). Minimum sample size for developing a multivariable prediction model using multinomial logistic regression. arXiv preprint.

  • van Hoorde, K. et al. (2016). Validation and updating of risk models based on multinomial logistic regression. Diagnostic and Prognostic Research.

  • Analysis and Predictive modeling. https://bookdown.org/content/a142b172-69b2-436d-bdb0-9da6d046a0f9/02-Regression_Model.html#multinomial-logistics