UTS Data Science Programing
Binary Model
Binary Logistic Regression digunakan saat variabel dependen (\(Y\)) bersifat kategori/biner, misalnya
0 atau 1, Ya atau
Tidak, Lulus atau Gagal.
Model ini memprediksi kemungkinan (probabilitas) terjadinya suatu
kejadian
[1].
Persamaan Logistic Regression:
\[ P(Y = 1 \mid X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k)}} \]
Atau setara dengan:
\[ \text{logit}(P) = \ln\left(\frac{P}{1 - P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k \]
Keterangan:
- \(P(Y = 1 \mid X)\) : Probabilitas kejadian terjadi (misalnya, probabilitas “Ya” atau “1”).
- \(X_1, X_2, \dots, X_k\) : Variabel independen (faktor-faktor yang memengaruhi, seperti usia atau pendapatan).
- \(\beta_0, \beta_1, \dots,
\beta_k\) : Koefisien model (menunjukkan seberapa besar pengaruh
setiap \(X\) terhadap
probabilitas).
- \(\text{logit}(P)\) : Logaritma odds dari probabilitas, digunakan untuk mengubah hubungan menjadi linear.
Model ini bisa diibaratkan seperti keran air yang memprediksi apakah air akan mengalir (1) atau tidak mengalir (0), berdasarkan faktor-faktor seperti tekanan air, posisi tuas keran, dan kondisi pipa.
Alih-alih garis lurus seperti regresi linear, logistic regression menggunakan kurva sigmoid (S) agar probabilitas selalu antara 0 dan 1.
Perbandingan
Perbandingan dengan Multinomial Regression:
- Binary hanya untuk 2 kategori, sedangkan Multinomial digunakan untuk lebih dari 2 kategori (misalnya Rendah/Sedang/Tinggi).
- Koefisien pada Binary menunjukkan efek langsung terhadap odds sukses, sedangkan pada Multinomial dibandingkan antar kategori relatif terhadap satu acuan.
Dalam studi ini, tujuan utamanya yaitu memodelkan hubungan antara
faktor-faktor pemasaran dan probabilitas keberhasilan,
di mana variabel target (\(Y\))
bersifat biner (Berhasil / Gagal).
Variabel independen yang digunakan adalah:
- Anggaran Iklan (\(X_1\)): Pengeluaran pemasaran
(dalam ribuan dolar), diasumsikan dapat meningkatkan peluang
keberhasilan.
- Jumlah Tenaga Penjual (\(X_2\)): Jumlah tenaga penjualan,
diperkirakan berpengaruh positif terhadap probabilitas
keberhasilan.
- Kepuasan Pelanggan (\(X_3\)): Diukur dalam skala 1–10;
semakin tinggi kepuasan, semakin besar peluang keberhasilan.
- Tingkat Persaingan (\(X_4\)): Semakin tinggi tingkat persaingan, semakin kecil kemungkinan keberhasilan.
Dataset
Dataset simulasi (Tabel 1.1) mencakup hubungan-hubungan ini dengan 200 observasi.
Model
Untuk mengetahui bagaimana faktor-faktor pemasaran (marketing factors) memengaruhi peluang keberhasilan (probability of success), kita menggunakan model regresi logistik. Regresi logistik digunakan ketika variabel target bersifat kategori biner, misalnya Sukses (1) atau Gagal (0).
Model ini bertujuan untuk memperkirakan probabilitas keberhasilan suatu produk berdasarkan empat variabel utama:
- Advertising \((X₁)\) → jumlah anggaran iklan (ribu dolar)
- Salespeople \((X₂)\) → jumlah tenaga penjualan
- Satisfaction \((X₃)\) → skor kepuasan pelanggan (1–10)
- Competition \((X₄)\) → tingkat persaingan pasar (1–10)
Semua variabel ini diasumsikan memiliki pengaruh terhadap kemungkinan keberhasilan produk di pasar.
# Membangun Model Regresi Logistik
model_logit <- glm(
Success ~ Advertising + Salespeople + Satisfaction + Competition,
data = data,
family = binomial
)
# Melihat hasil model
summary(model_logit)##
## Call:
## glm(formula = Success ~ Advertising + Salespeople + Satisfaction +
## Competition, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -6.01352 1.89719 -3.170 0.001526 **
## Advertising 0.19448 0.05866 3.315 0.000916 ***
## Salespeople 0.28322 0.08019 3.532 0.000413 ***
## Satisfaction 0.42218 0.14105 2.993 0.002762 **
## Competition -0.27119 0.14914 -1.818 0.069007 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 111.508 on 199 degrees of freedom
## Residual deviance: 63.617 on 195 degrees of freedom
## AIC: 73.617
##
## Number of Fisher Scoring iterations: 7
Interpretasi Hasil Model Regresi:
Advertising (Iklan): Koefisien positif artinya semakin besar pengeluaran iklan, semakin tinggi kemungkinan produk berhasil. Jadi, iklan yang lebih banyak pengeluaran biasanya meningkatkan peluang keberhasilan.
Salespeople (Tenaga Penjualan): Semakin banyak tenaga penjualan, peluang keberhasilan juga meningkat. Ini karena cakupan penjualan lebih luas.
Satisfaction (Kepuasan Pelanggan): Semakin tinggi kepuasan pelanggan, semakin besar peluang keberhasilan, terutama ketika kepuasan awal masih rendah.
Competition (Persaingan): Koefisien negatif artinya semakin tinggi persaingan, peluang keberhasilan juga menurun. Ini sesuai dengan logika pasar.
Performa Model: Untuk menilai seberapa baik model, bisa dilihat dari accuracy, confusion matrix, atau AUC. Probabilitas prediksi juga bisa divisualisasikan untuk memahami pengaruh masing-masing variabel terhadap peluang sukses.
Visualisasi
# Prediksi probabilitas dan kelas
data$pred_prob <- predict(model_logit, newdata = data, type = "response")
data$pred_class <- ifelse(data$pred_prob > 0.5, 1, 0)
# Hitung confusion matrix
cm <- confusionMatrix(as.factor(data$pred_class), as.factor(data$Success))
tp <- as.numeric(cm$table[2,2])
fp <- as.numeric(cm$table[2,1])
fn <- as.numeric(cm$table[1,2])
tn <- as.numeric(cm$table[1,1])
# Dapatkan AIC
aic_val <- round(AIC(model_logit), 2)
# Koefisien model
coefs <- round(coef(model_logit), 2)
eq_str <- paste("Logistic Model:\nlogit(p) = ", coefs[1], " + ", coefs[2], "(Advertising) + ",
coefs[3], "(Salespeople) + ", coefs[4], "(Satisfaction) + ",
coefs[5], "(Competition)\np = 1 / [1 + exp(-logit(p))]", sep="")
# String untuk confusion matrix
cm_str <- paste("Confusion Matrix:\nTP = ", tp, ", FP = ", fp,
"\nFN = ", fn, ", TN = ", tn, "\nAIC = ", aic_val, sep="")
# Data prediksi untuk kurva
pred_data <- data.frame(
Advertising = seq(min(data$Advertising), max(data$Advertising), length.out = 100),
Salespeople = mean(data$Salespeople),
Satisfaction = mean(data$Satisfaction),
Competition = mean(data$Competition)
)
pred_data$pred_prob <- predict(model_logit, newdata = pred_data, type = "response")
# Plotly
fig <- plot_ly() %>%
# Titik probabilitas aktual
add_markers(data = data,
x = ~Advertising,
y = ~pred_prob,
type = 'scatter',
mode = 'markers',
name = 'Data Aktual',
marker = list(color = 'lightblue', size = 8, opacity = 0.7),
hoverinfo = "text",
text = ~paste("Advertising: ", Advertising,
"<br>Predicted Prob: ", round(pred_prob, 3),
"<br>Success: ", Success)) %>%
# Garis prediksi
add_lines(data = pred_data,
x = ~Advertising,
y = ~pred_prob,
line = list(color = 'red', width = 3),
name = 'Kurva Prediksi') %>%
layout(
xaxis = list(title = "Advertising Budget"),
yaxis = list(title = "Predicted Probability of Success", range = c(0, 1)),
legend = list(orientation = "h", x = 0.3, y = -0.2),
annotations = list(
list(
x = min(data$Advertising),
y = 0.15,
text = eq_str,
showarrow = FALSE,
xanchor = "left",
align = "left",
font = list(size = 11, color = "blue")
),
list(
x = max(data$Advertising),
y = 0.05,
text = cm_str,
showarrow = FALSE,
xanchor = "right",
align = "left",
font = list(size = 11, color = "blue")
)
)
)
figInterpretasi Visualisasi:
1. Arah Hubungan Positif Garis kurva yang menanjak menunjukkan bahwa semakin tinggi anggaran iklan (Advertising), maka probabilitas keberhasilan produk juga meningkat. Artinya, investasi tambahan dalam promosi memiliki dampak nyata terhadap peluang sukses pemasaran.
2. Perubahan Marginal (Efek Bertahap) Pada nilai Advertising yang rendah, kenaikan anggaran iklan memberikan peningkatan probabilitas yang cukup signifikan. Namun, ketika nilai Advertising semakin besar, kenaikan tambahan tidak lagi menghasilkan peningkatan probabilitas yang besar (efeknya mulai melandai). > Hal ini konsisten dengan sifat fungsi logistik yang memiliki batas atas (mendekati 1).
3. Sebaran Titik Data
Titik-titik data (Success = 1 atau 0)
tersebar di sekitar kurva model.
- Titik di bagian bawah (dekat 0) menggambarkan observasi yang gagal (Failure).
- Titik di bagian atas (dekat 1) menggambarkan observasi yang berhasil (Success).
Sebaran yang mengikuti pola kurva menandakan bahwa model cukup baik dalam memisahkan dua kategori hasil.
4. Probabilitas Prediksi Kurva biru (hasil model) menunjukkan nilai probabilitas prediksi untuk setiap nilai Advertising. Dengan begitu, kita bisa memperkirakan:
- Saat Advertising = 10, probabilitas keberhasilan mungkin sekitar 0.3.
- Saat Advertising = 30, probabilitas meningkat hingga sekitar 0.8.
Ini menunjukkan pengaruh positif dan signifikan dari anggaran iklan terhadap keberhasilan produk.
5. Kualitas Model (Tambahan Interpretasi) Model ini mampu menangkap pola yang logis secara ekonomi: semakin besar usaha promosi, semakin tinggi peluang sukses. Namun, untuk memastikan performanya kuat secara statistik, perlu juga dilihat akurasi, confusion matrix, dan AUC, seperti disebutkan dalam analisis sebelumnya.
Multinomial Model
Multinomial Logistic Regression
Multinomial Logistic Regression digunakan ketika variabel target memiliki lebih dari dua kategori. Contohnya, keputusan konsumen bisa terdiri dari tiga pilihan seperti “Tidak Membeli”, “Membeli Sedikit”, dan “Membeli Banyak”.
Berbeda dengan Binary Logistic Regression yang hanya memiliki dua kelas, model ini memperkirakan peluang untuk setiap kategori berdasarkan nilai variabel bebas yang dimasukkan. Dengan demikian, setiap kategori akan memiliki kemungkinan tersendiri yang dihitung secara bersamaan. [2].
Persamaan Umum
Untuk setiap kategori \(j\) (dengan \(j = 2, 3, \dots, J\), dan kategori 1 sebagai referensi):
\[ \ln\left(\frac{P(Y = j \mid X)}{P(Y = 1 \mid X)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{kj}X_k \]
Penjelasan
- Bagian kiri, \(\ln\left(\frac{P(Y = j \mid
X)}{P(Y = 1 \mid X)}\right)\), adalah log-odds: seberapa besar
kemungkinan kategori \(j\) dibanding
kategori referensi.
- \(P(Y = j \mid X)\) → kemungkinan
observasi masuk kategori \(j\).
- \(P(Y = 1 \mid X)\) → kemungkinan
observasi masuk kategori referensi.
- \(\beta_{0j}\) → nilai dasar
(intersep) untuk kategori \(j\).
- \(\beta_{1j}, \dots, \beta_{kj}\) →
seberapa besar tiap variabel independen mempengaruhi kemungkinan
kategori \(j\).
- \(X_1, \dots, X_k\) → variabel yang mempengaruhi hasil, misal anggaran iklan, jumlah sales, kepuasan pelanggan, dll.
Probabilitas
Persamaan Probabilitas
Probabilitas tiap kategori \(j\) dihitung dengan:
\[ P(Y = j \mid X) = \frac{\exp(\beta_{0j} + \beta_{1j}X_1 + \dots + \beta_{kj}X_k)} {\sum_{m=1}^{J} \exp(\beta_{0m} + \beta_{1m}X_1 + \dots + \beta_{km}X_k)} \]
Penjelasan:
- Fungsi eksponensial (\(\exp\)) digunakan untuk mengubah log-odds menjadi bentuk probabilitas.
- Bagian bawah (penyebut) memastikan total seluruh probabilitas kategori bernilai 1.
- Setiap kategori memiliki “nilai skor” masing-masing, dan probabilitas akhir diperoleh dari perbandingan antar-skor tersebut.
- Biasanya, kategori referensi memiliki koefisien nol (\(\beta_{01} = 0\)) agar hasil perbandingan dapat dihitung dengan mudah. [2].
Model ini bisa diterapkan untuk menganalisis hubungan antara faktor-faktor pemasaran dengan tingkat keberhasilan produk, misalnya dengan tiga level: Rendah (Low), Sedang (Medium), dan Tinggi (High).
Jika sebelumnya data hanya bersifat biner (dua kategori), maka perlu dilakukan simulasi atau modifikasi data terlebih dahulu agar menjadi multinomial. Sebagai contoh, variabel Success dapat diubah menjadi Sales_Level dengan tiga kategori tadi untuk kemudian dianalisis menggunakan Multinomial Logistic Regression.
Variabel
Variabel yang digunakan sama seperti pada binary logistic regression:
- \(X_1\)
(Advertising) → jumlah anggaran iklan (ribu
dolar)
- \(X_2\)
(Salespeople) → jumlah tenaga penjualan
- \(X_3\)
(Satisfaction) → skor kepuasan pelanggan (1–10)
- \(X_4\) (Competition) → tingkat persaingan (1–10)
Variabel outcome diasumsikan mempengaruhi kemungkinan tingkat keberhasilan produk di pasar.
Karena model ini variabel target memiliki lebih dari dua kategori,
kita akan mengubah isi kolom Success agar memiliki nilai
kategori (Low, Medium, dan High)
data$Success <- cut(
data$Satisfaction,
breaks = c(-Inf, 3, 9, Inf), # batas nilai Satisfaction
labels = c("Low", "Medium", "High"),
include.lowest = TRUE
)
# Ubah jadi faktor (opsional)
data$Success <- as.factor(data$Success)
# Tampilkan tabel interaktif
datatable(data, options = list(pageLength = 10))Model
model_multi <- multinom(
Success ~ Advertising + Salespeople + Satisfaction + Competition,
data = data
)## # weights: 18 (10 variable)
## initial value 219.722458
## iter 10 value 94.668863
## iter 20 value 9.325577
## iter 30 value 5.611625
## iter 40 value 4.470831
## iter 50 value 2.378333
## iter 60 value 2.338715
## iter 70 value 2.305070
## iter 80 value 2.271950
## iter 90 value 2.261275
## iter 100 value 2.224649
## final value 2.224649
## stopped after 100 iterations
## Call:
## multinom(formula = Success ~ Advertising + Salespeople + Satisfaction +
## Competition, data = data)
##
## Coefficients:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium -275.2844 -0.4786453 -0.2353877 91.18099 1.830613
## High -536.8814 -0.4114306 -0.2983090 120.12333 2.140306
##
## Std. Errors:
## (Intercept) Advertising Salespeople Satisfaction Competition
## Medium 80.30762 1.141863 1.278361 27.70573 3.534004
## High 86.72740 1.193863 1.301309 11.69638 3.530117
##
## Residual Deviance: 4.449299
## AIC: 24.4493
Interpretasi Hasil Model Multinomial Logistic Regression
Model ini digunakan untuk memprediksi tingkat keberhasilan produk (Success_Level) yang diklasifikasikan menjadi tiga kategori: Low, Medium, dan High. Prediksi dilakukan berdasarkan empat variabel utama, yaitu Advertising, Salespeople, Satisfaction, dan Competition.
Dalam model ini, kategori Low dijadikan sebagai kategori, sehingga seluruh hasil koefisien untuk kategori lainnya diinterpretasikan relatif terhadap kategori tersebut.
1. Intercept (Titik Awal)
- Untuk kategori Medium: (Intercept) =
-186.53 - Untuk kategori High: (Intercept) = -
356.39
Nilai konstanta yang negatif dan cukup besar menunjukkan bahwa ketika semua variabel independen bernilai nol, peluang untuk mencapai kategori Medium atau High sangat kecil dibanding Low. Dengan kata lain, tanpa dukungan faktor-faktor seperti iklan dan kepuasan pelanggan, kemungkinan produk berhasil tergolong rendah.
2. Advertising
- Medium:
-0.175 - High:
+0.202
Koefisien positif untuk kategori High menandakan bahwa peningkatan dana iklan dapat meningkatkan peluang keberhasilan tinggi.
Sebaliknya, nilai negatif kecil untuk kategori Medium memperlihatkan efek yang sedikit menurun. Secara umum, semakin besar anggaran iklan, semakin tinggi potensi produk masuk ke kategori High.
3. Salespeople
- Medium:
-0.218 - High:
-0.668
Koefisien negatif pada kedua kategori menunjukkan bahwa peningkatan jumlah tenaga penjual justru menurunkan peluang keberhasilan produk. Hal ini bisa disebabkan oleh kurangnya efektivitas kerja tim, tumpang tindih tugas, atau persaingan internal antarpenjual yang menurunkan produktivitas.
4. Satisfaction
- Medium:
+48.54 - High:
+73.42
Variabel kepuasan pelanggan memiliki pengaruh paling kuat dan positif terhadap keberhasilan produk. Nilai koefisien yang tinggi menandakan bahwa semakin puas pelanggan, semakin besar kemungkinan produk mencapai tingkat Medium maupun High. Kepuasan pelanggan menjadi indikator utama keberhasilan pasar.
5. Competition
- Medium:
-0.066 - High:
-0.215
Koefisien negatif menunjukkan bahwa semakin ketat persaingan di pasar, semakin kecil kemungkinan produk mencapai kategori keberhasilan yang lebih tinggi. Artinya, pasar dengan tingkat kompetisi tinggi dapat menekan performa penjualan dan peluang sukses perusahaan.
6. Goodness of Fit
- Residual Deviance =
1.518 - AIC =
21.52
Nilai AIC yang rendah mengindikasikan bahwa model mampu menyesuaikan diri dengan data secara baik. Secara keseluruhan, model ini menunjukkan hasil yang memuaskan karena dapat menjelaskan variasi tingkat keberhasilan produk dengan cukup baik melalui empat variabel utama tadi.
- Faktor berpengaruh positif: Advertising (untuk kategori High) dan Satisfaction
- Faktor berpengaruh negatif: Salespeople dan Competition
- Faktor paling dominan: Satisfaction (kepuasan pelanggan)
- Kesesuaian model: Baik (AIC rendah)
Visualisasi
# Prediksi probabilitas dan kelas
pred_probs <- predict(model_multi, newdata = data, type = "probs")
pred_probs <- as.data.frame(pred_probs) # pastikan hasilnya jadi data.frame
colnames(pred_probs) <- c("Low","Medium","High")
# Pastikan tidak ada kolom lama
data <- data[, !names(data) %in% c("Low","Medium","High","pred_class")]
# Gabungkan
data <- cbind(data, pred_probs)
data$pred_class <- predict(model_multi, newdata = data)
# Evaluasi model
aic_val <- round(AIC(model_multi), 2)
cm <- confusionMatrix(as.factor(data$pred_class), as.factor(data$Success))
acc_val <- round(cm$overall["Accuracy"], 3)
cm_str <- paste("Accuracy =", acc_val, "| AIC =", aic_val)
# Data prediksi kurva
pred_data <- data.frame(
Advertising = seq(min(data$Advertising), max(data$Advertising), length.out = 100),
Salespeople = mean(data$Salespeople),
Satisfaction = mean(data$Satisfaction),
Competition = mean(data$Competition)
)
pred_curve <- predict(model_multi, newdata = pred_data, type = "probs")
pred_curve <- as.data.frame(pred_curve) # Pastikan bentuknya data frame
colnames(pred_curve) <- c("Low","Medium","High") # Pastikan nama kolom jelas
pred_data <- cbind(pred_data, pred_curve)
# Format long untuk Plotly
pred_long <- pred_data %>%
pivot_longer(
cols = c("Low","Medium","High"),
names_to = "Kategori",
values_to = "Probabilitas"
)
# Pastikan kolom numerik
pred_long$Advertising <- as.numeric(pred_long$Advertising)
pred_long$Probabilitas <- as.numeric(pred_long$Probabilitas)
# Warna kategori
colors_scatter <- c("Low"="blue", "Medium"="orange", "High"="green")
# Plot interaktif
fig <- plot_ly()
# Scatter data aktual (yaxis kiri)
for(cat in c("Low","Medium","High")){
fig <- fig %>% add_markers(
data = data %>% filter(Success == cat) %>%
mutate(Advertising_jitter = Advertising + runif(n(), -0.3, 0.3)),
x = ~Advertising_jitter,
y = ~Satisfaction,
color = I(colors_scatter[cat]),
name = paste("Data", cat),
marker = list(size=8, opacity=0.6),
hoverinfo="text",
text = ~paste(
"Advertising:", round(Advertising,2),
"<br>Satisfaction:", round(Satisfaction,2),
"<br>Salespeople:", round(Salespeople,2),
"<br>Competition:", round(Competition,2),
"<br>Success:", Success
)
)
}
# Garis prediksi (yaxis kanan)
for(cat in c("Low","Medium","High")){
fig <- fig %>% add_lines(
data = pred_long %>% filter(Kategori == cat),
x = ~Advertising,
y = ~Probabilitas,
line = list(color = colors_scatter[cat], width = 3),
name = paste("Prediksi", cat),
yaxis = "y2",
hoverinfo="text",
text = ~paste("Advertising:", round(Advertising,2),
"<br>Probabilitas:", round(Probabilitas,3))
)
}
# Layout
fig <- fig %>% layout(
title = list(text="Multinomial Logistic Regression: Scatter & Garis Prediksi", x=0.5),
xaxis = list(title="Advertising"),
yaxis = list(title="Satisfaction (Data Aktual)", range=c(min(data$Satisfaction), max(data$Satisfaction))),
yaxis2 = list(title="Probabilitas Prediksi", overlaying="y", side="right", range=c(0,1)),
legend = list(orientation="h", x=0.5, y=-0.2, xanchor="center"),
annotations = list(
list(
x=max(data$Advertising), y=max(data$Satisfaction),
text=cm_str, showarrow=FALSE, xanchor="right",
font=list(size=12, color="darkred")
)
)
)
figInterpretasi Visualisasi:
1. Penyebaran Data Aktual (Scatter Plot)
- Low (Blue) → Sebagian besar data muncul pada tingkat Advertising
yang rendah.
- Medium (Orange) → Nilainya tersebar di kisaran sedang pada variabel Advertising.
- High (Grenn) → Lebih banyak ditemukan pada tingkat Advertising yang tinggi.
2. Probabilitas Prediksi Model
- Grafik tiap kategori menggambarkan peluang prediksi model terhadap perubahan nilai Advertising, dengan asumsi variabel lainnya berada pada nilai rata-rata.
- Low (Blue) → Probabilitasnya menurun seiring peningkatan Advertising; menunjukkan bahwa peluang masuk kategori Low semakin kecil saat iklan bertambah.
- Medium (Orange) → Memiliki probabilitas tertinggi pada tingkat Advertising sedang; menandakan kategori ini paling mungkin muncul di kisaran tengah.
- High (Green) → Peluangnya meningkat seiring bertambahnya Advertising; artinya kategori High semakin mungkin terjadi ketika iklan meningkat.
3. Pola Tren
Secara keseluruhan, pola yang terbentuk menunjukkan hubungan yang masuk akal antara variabel:
- Low → cenderung menurun
- Medium → berada di tengah (stabil atau sedikit naik-turun)
- High → cenderung meningkat
Pola ini menegaskan bahwa model berhasil menggambarkan keterkaitan antara tingkat Advertising dan Success_Level dengan cukup baik.
Perbandingan
Kita bisa ringkas perbandingan Binary vs Multinomial Logistic Regression dalam bentuk tabel:
| Aspek | Binary Logistic Regression | Multinomial Logistic Regression |
|---|---|---|
| Variabel Target | Memiliki dua kategori (contoh: Success = 0 atau 1) | Memiliki lebih dari dua kategori (contoh: Success_Level = Low / Medium / High) |
| Probabilitas Prediksi | Menghasilkan satu nilai probabilitas untuk kelas “1”, sedangkan kelas “0” dihitung sebagai (1 – p) | Menghasilkan probabilitas untuk tiap kategori, di mana total seluruh probabilitas = 1 |
| Garis Prediksi (Trend) | Menampilkan satu kurva S (S-curve) yang menunjukkan perubahan peluang keberhasilan seiring peningkatan variabel prediktor | Memiliki tiga garis prediksi (misalnya untuk Low, Medium, High) yang menggambarkan perubahan peluang tiap kategori |
| Visualisasi | Umumnya menggunakan scatter plot dan satu kurva prediksi | Menggunakan scatter plot dan tiga kurva prediksi (per kategori) untuk menunjukkan distribusi peluang masing-masing kelas |
| Interpretasi | Lebih mudah karena hanya dua kelas, cocok untuk analisis sederhana | Lebih kompleks, namun mampu memberikan gambaran yang lebih detail tentang distribusi peluang tiap kategori |
| Akurasi & AIC | Nilai akurasi dan AIC dihitung secara keseluruhan untuk dua kelas | Akurasi dihitung untuk seluruh kategori, dan AIC digunakan untuk menilai kesesuaian model secara umum |
| Kelebihan | Sederhana, mudah dibaca dan cepat diinterpretasikan | Dapat memodelkan lebih dari dua kategori, serta mampu menangkap perubahan peluang antar kategori |
| Kekurangan | Tidak dapat digunakan untuk kasus dengan lebih dari dua kategori | Interpretasinya lebih rumit, dan visualisasinya cenderung lebih kompleks |