Meeting Task 3 Analisis and Predictive Model

1 Multinomial Logistics

Model Multinomial Logistic merupakan pengembangan dari Binary Logostic Regression yang digunakan ketika variabel respon \(Y\) bersifat kategorik nominal dan memiliki lebih dari dua kategori. Model ini digunakan untuk memperkirakan peluang suatu observasi termasuk ke dalam masing-masing kategori berdasarkan dengan sekumpulan variabel prediktor \((X_1,X_2,..,X_P)\).

Dalam penerapannya, satu kategori dari variabel respon dijadikan sebagai kelas referensi (baseline category), sedangkan kategori lainnya dibandingkan terhadap kategori tersebut melalui rasio log-odds. dengan menggunakan metode estimasi seperti Maximum Likelihood Estimation, model ini memungkinkan oengukuran koefisien yang menunjukkan pengaruh tiap variabel prediktor terhadap log-rasio peluang tiap kategori terhadap referensi.

Maka dari itu model ini sangat berguna dalam analisis keputusan kategorik karena tidak hanya memprediksi kategori dengan probabilitas tinggi, tetapi juga mengidentifikasi faktor-faktor yang mempengaruhi peluang relatif antar kategori. untuk menjamin validitas hasil, perlu dilakukan pengujian signifikasi koefisien, penaksiran parameter dengan iterasi dan uji kesesuaian model agar dipastikan bahwa model empiris cocok dengan data observasi.

Secara matematis, hubungan antara variabel respon \(Y\) dan variabel prediktor \(X\) dalam model multinomial logistic dinyatakan dengan:

\[ \log\left(\frac{P(Y=J)}{P(Y=j)}\right) = \beta_{0j} + \beta_{1j}X_1 + \beta_{2j}X_2 + \dots + \beta_{pj}X_p, \quad j = 1, 2, \dots, j-1 \]

dengan keterangan sebagai berikut:

\(Y\) = variabel dependen (respon) dengan J kategori,
\(X_1, X_2,..., X_p\) = variabel independen (prediktor),
\(\beta_{1j}\) = koefisien model untuk kategori \(j\) dibandingkan referensi \(J\),
\(J\) = kategori referensi (baseline category) yang menjadi pembanding.

model ini menghasilkan fungsi logit yang menunjukkan logaritma dari perbandingan peluang (log odds) antara kategori \(j\) dengan kategori referensi \(J\)

Dari persamaan logit diatas, probabilitas suatu observasi berada pada kategori ke-\(j\) dapat dihitung dengan:

\[ P(Y=j \mid X) = \frac{e^{\beta_{0j} + \beta_{1j}X_1 + \dots + \beta_{pj}X_p}} {1 + \sum_{h=1}^{J-1} e^{\beta_{0h} + \beta_{1h}X_1 + \dots + \beta_{ph}X_p}} \]

sedangkan probabilitas untuk kategori referensi \((Y = J)\) adalah:

\[ P(Y=J \mid X) = \frac{1} {1 + \sum_{h=1}^{J-1} e^{\beta_{0h} + \beta_{1h}X_1 + \dots + \beta_{ph}X_p}} \]

Dengan demikian, total seluruh probabilitas dari semua kategori memenuhi syarat:

\[ \sum_{j=1}^{J} P(Y = j \mid X) = 1 \]

1.1 Import Dataset

Berikut langkah persiapan data dan pembuatan variabel kategori target berdasarkan skor Company Success.

## Struktur Dataset:

## 'data.frame':    200 obs. of  7 variables:
##  $ No          : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Advertising : num  12.2 24.7 15.2 27.1 28.5 ...
##  $ Salespeople : num  16 34.1 25 22.9 20.1 ...
##  $ Satisfaction: num  9.87 2.23 9.15 6.19 4.56 ...
##  $ Competition : num  3.14 7.18 3.03 3.87 2.57 ...
##  $ Success     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Target      : Factor w/ 3 levels "Low","Medium",..: 3 1 3 2 2 2 3 1 2 3 ...

Catatan :

Pemilihan model multinomial logistic regression didasarkan pada pertimbangan bahwa variabel Target bersifat kategorikal dengan urutan (ordinal), namun tidak memiliki jarak antar level yang pasti. Oleh karena itu, pendekatan ini dianggap lebih fleksibel dan tepat dibandingkan model ordinal logistic yang mengasumsikan proportional odds.

1.2 Hasil Regresi Multinomial Logistic

library(nnet)

# Model multinomial logistic regression
model_mlr <- multinom(Target ~ Advertising + Salespeople + Competition, data = df)

## # weights:  15 (8 variable)
## initial  value 219.722458 
## iter  10 value 214.365442
## final  value 214.365437 
## converged

# Ringkasan hasil
s <- summary(model_mlr)
z <- s$coefficients / s$standard.errors
p <- 2 * (1 - pnorm(abs(z)))

# Tampilkan hasil mirip format glm()
cat("Call:\n")

## Call:

print(model_mlr$call)

## multinom(formula = Target ~ Advertising + Salespeople + Competition, 
##     data = df)

cat("\nCoefficients:\n")

## 
## Coefficients:

for (i in 1:nrow(s$coefficients)) {
  cat("\n", rownames(s$coefficients)[i], ":\n", sep = "")
  
  # Header kolom
  cat("                Estimate   Std.Error    z value   Pr(>|z|)\n")
  
  # Isi tiap variabel
  for (j in 1:ncol(s$coefficients)) {
    cat(sprintf("%-15s %10.6f %10.6f %10.6f %10.6f\n",
                colnames(s$coefficients)[j],
                s$coefficients[i, j],
                s$standard.errors[i, j],
                z[i, j],
                p[i, j]))
  }
}

## 
## Medium:
##                 Estimate   Std.Error    z value   Pr(>|z|)
## (Intercept)      -1.112204   0.863758  -1.287634   0.197873
## Advertising       0.023336   0.025865   0.902226   0.366937
## Salespeople       0.002940   0.024036   0.122298   0.902663
## Competition       0.108269   0.067179   1.611643   0.107040
## 
## High:
##                 Estimate   Std.Error    z value   Pr(>|z|)
## (Intercept)       1.316799   0.808244   1.629210   0.103269
## Advertising      -0.029842   0.025913  -1.151632   0.249472
## Salespeople      -0.035566   0.024036  -1.479732   0.138945
## Competition      -0.005232   0.067170  -0.077892   0.937914

cat("\nResidual Deviance:", round(deviance(model_mlr), 4),
    "\nAIC:", round(AIC(model_mlr), 4), "\n")

## 
## Residual Deviance: 428.7309 
## AIC: 444.7309

Interpretasi :

Hasil regresi multinomial menunjukkan bahwa, dibandingkan kategori Low, peluang masuk ke kategori Medium dipengaruhi oleh beberapa variabel utama. Nilai koefisien dan hasil uji statistik menunjukkan arah hubungan yang positif, tetapi dengan tingkat signifikansi yang belum kuat.

Advertising: 0.023 (z = 0.90, p = 0.37)
Salespeople: 0.003 (z = 0.12, p = 0.90)
Competition: 0.108 (z = 1.61, p = 0.11)

Ketiga variabel tersebut berarah positif, artinya peningkatan intensitas iklan, jumlah tenaga penjualan, serta kompetisi antar perusahaan cenderung meningkatkan peluang berpindah dari kategori Low ke Medium. Namun karena nilai z-score ketiganya masih di bawah batas signifikan (±1.96) dan p-value di atas 0.05, maka secara statistik pengaruhnya belum signifikan. Dengan kata lain, faktor-faktor ini berpotensi mendorong kenaikan kategori, tetapi belum cukup kuat secara nyata.

Untuk perbandingan antara kategori High terhadap Low, diperoleh hasil sebagai berikut:

Advertising: –0.030 (z = –1.15, p = 0.25)
Salespeople: –0.036 (z = –1.48, p = 0.14)
Competition: –0.005 (z = –0.08, p = 0.94)

Koefisien negatif menunjukkan bahwa peningkatan ketiga variabel tersebut tidak berkaitan dengan meningkatnya peluang berada di kategori tertinggi (High). Bahkan arah hubungannya cenderung berlawanan, meskipun secara statistik juga tidak signifikan. Hal ini berarti bahwa peningkatan promosi atau jumlah tenaga penjualan tidak menjamin peningkatan posisi pada level High.

Model regresi berhasil konvergen dengan nilai Residual Deviance sebesar 428.73 dan AIC sebesar 444.73. Angka ini menunjukkan bahwa model berjalan dengan baik secara teknis, tetapi belum efisien dalam menjelaskan variasi data antar kategori Target. Artinya, kemungkinan masih ada variabel lain yang lebih berpengaruh terhadap perubahan tingkat Target dibandingkan ketiga faktor tersebut.

1.2.1 Perbandingan Hasil Regresi Multinomial dengan Binary

# hasil regresi binary (saya pindahkan untuk perbandingan)
model_logit <- glm(
  Success ~ Advertising + Salespeople + Satisfaction + Competition,
  data = df,
  family = binomial
)

summary(model_logit)

## 
## Call:
## glm(formula = Success ~ Advertising + Salespeople + Satisfaction + 
##     Competition, family = binomial, data = df)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -6.01352    1.89719  -3.170 0.001526 ** 
## Advertising   0.19448    0.05866   3.315 0.000916 ***
## Salespeople   0.28322    0.08019   3.532 0.000413 ***
## Satisfaction  0.42218    0.14105   2.993 0.002762 ** 
## Competition  -0.27119    0.14914  -1.818 0.069007 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 111.508  on 199  degrees of freedom
## Residual deviance:  63.617  on 195  degrees of freedom
## AIC: 73.617
## 
## Number of Fisher Scoring iterations: 7

Perbandingan:

Perbandingan antara binary logistic regression dan multinomial logistic regression menunjukkan adanya perbedaan dalam kekuatan penjelasan dan signifikansi antar variabel prediktor. Secara umum, model binary lebih efisien dan kuat dalam memprediksi peluang keberhasilan dibandingkan model multinomial yang membagi kategori menjadi tiga level (Low, Medium, High).

1.Model Binary Logistic Regression:

Model ini menunjukkan performa yang baik, dengan sebagian besar variabel berpengaruh signifikan terhadap keberhasilan:

Advertising(p = 0.0009) dan Salespeople (p = 0.0004) berpengaruh positif dan signifikan, artinya semakin tinggi promosi dan jumlah tenaga penjualan, semakin besar peluang sukses.
Satisfaction(p = 0.0027) juga signifikan positif, menegaskan bahwa kepuasan pelanggan berperan penting dalam meningkatkan keberhasilan.
Competition (p = 0.069) memiliki arah negatif dengan pengaruh yang lemah.

Nilai Residual Deviance (63.62) dan AIC (73.62) yang rendah menunjukkan model sangat baik dalam menjelaskan variasi data dan efisien secara statistik.

2.Model Multinomial Logistic Regression:

Model ini memberikan gambaran lebih rinci antar level kategori, tetapi kekuatan prediksinya lebih lemah:

Kategori Medium vs Low, semua variabel berarah positif (Advertising = 0.023; Salespeople = 0.003; Competition = 0.108), tetapi tidak signifikan (p > 0.1).
Kategori High vs Low, koefisien justru negatif dan juga tidak signifikan.
Nilai Residual Deviance (428.73) dan AIC (444.73) jauh lebih tinggi menandakan bahwa model ini kurang efisien dan memiliki kemampuan prediksi yang lebih rendah.

Secara keseluruhan, dapat disimpulkan bahwa model binary logistic regression lebih tepat digunakan ketika tujuan analisis adalah untuk melihat faktor-faktor yang memengaruhi peluang keberhasilan secara umum. Sementara itu, model multinomial logistic regression lebih berguna untuk memahami pola antar level kinerja, meskipun pada data ini belum menunjukkan perbedaan yang signifikan antar kategori. Dengan demikian, model binary dinilai lebih kuat, sederhana, dan informatif, sedangkan model multinomial masih memerlukan penambahan variabel atau penyempurnaan data agar mampu menjelaskan variasi antar level dengan lebih jelas.

1.3 Hasil Evaluasi Model Multinomial Logistic

library(caret)

## Warning: package 'caret' was built under R version 4.5.1

# Prediksi hasil dari model
pred_mlr <- predict(model_mlr)

# Confusion matrix untuk melihat akurasi klasifikasi
conf_matrix <- confusionMatrix(pred_mlr, df$Target)
conf_matrix

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction Low Medium High
##     Low     21     14   17
##     Medium  23     32   16
##     High    23     20   34
## 
## Overall Statistics
##                                           
##                Accuracy : 0.435           
##                  95% CI : (0.3652, 0.5067)
##     No Information Rate : 0.335           
##     P-Value [Acc > NIR] : 0.002046        
##                                           
##                   Kappa : 0.1526          
##                                           
##  Mcnemar's Test P-Value : 0.316426        
## 
## Statistics by Class:
## 
##                      Class: Low Class: Medium Class: High
## Sensitivity              0.3134        0.4848      0.5075
## Specificity              0.7669        0.7090      0.6767
## Pos Pred Value           0.4038        0.4507      0.4416
## Neg Pred Value           0.6892        0.7364      0.7317
## Prevalence               0.3350        0.3300      0.3350
## Detection Rate           0.1050        0.1600      0.1700
## Detection Prevalence     0.2600        0.3550      0.3850
## Balanced Accuracy        0.5402        0.5969      0.5921

1.3.1 Hasil Visualisasi Evaluasi Model Multinomial Logistic

library(caret) 
library(ggplot2) 
library(reshape2) 

# Prediksi hasil dari model multinomial
pred_mlr <- predict(model_mlr) 

# Confusion matrix 
conf_matrix <- confusionMatrix(pred_mlr, df$Target) 

# 1. Heatmap Confusion Matrix
cm <- as.data.frame(conf_matrix$table) 
colnames(cm) <- c("Reference", "Prediction", "Freq") 

ggplot(cm, aes(x = Reference, y = Prediction, fill = Freq)) +
  geom_tile(color = "white") +
  geom_text(aes(label = Freq), color = "black", size = 5) +
  scale_fill_gradient(low = "#e0f3f8", high = "#2166ac") +
  labs(
    title = "Confusion Matrix Heatmap - Multinomial Logistic", 
    x = "Kelas Aktual", 
    y = "Kelas Prediksi", 
    fill = "Frekuensi"
  ) +
  theme_minimal()

# 2. Bar Plot Balanced Accuracy per Kelas
class_stats <- as.data.frame(conf_matrix$byClass)
class_stats$Class <- rownames(class_stats)

# Menghitung manual jika kolom Balanced Accuracy tidak ada 
if(!"Balanced Accuracy" %in% colnames(class_stats)) { 
  class_stats$`Balanced Accuracy` <- (class_stats$Sensitivity + class_stats$Specificity) / 2
} 

ggplot(class_stats, aes(x = Class, y = `Balanced Accuracy`, fill = Class)) +
  geom_col(width = 0.6) +
  geom_text(aes(label = round(`Balanced Accuracy`, 2)), vjust = -0.5) +
  labs(
    title = "Balanced Accuracy per Kelas - Multinomial Logistic", 
    x = "Kelas", 
    y = "Balanced Accuracy"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

Interpretasi :

Model multinomial logistic menghasilkan akurasi sebesar 43,5%, hanya sedikit lebih tinggi dari No Information Rate (33,5%), dengan nilai Kappa = 0,15. Ini menunjukkan kemampuan model dalam membedakan kelas masih sangat terbatas dan mendekati prediksi acak. Artinya, meskipun model memprediksi lebih baik dari tebakan berdasarkan kelas mayoritas, tingkat ketepatan dan konsistensinya belum dapat diandalkan.

Performa per kelas menunjukkan ketidakseimbangan prediksi:

Kategori Low memiliki sensitivitas terendah, hanya 31,3%.
Kategori Medium dan High sedikit lebih baik (±48–50%), namun tetap menunjukkan lebih dari separuh data klasifikasi salah.
Specificity berada pada kisaran 67–76%, menandakan model lebih mampu mengenali data yang bukan bagian dari suatu kelas dibanding mengenali kelas itu sendiri.
Balanced Accuracy hanya sekitar (0,54–0,59), menegaskan bahwa performa model masih sedikit di atas acak.

Selain itu, beberapa koefisien pada model tidak signifikan secara statistik (p-value > 0,05), sehingga belum menunjukkan pengaruh kuat terhadap peluang perpindahan kategori.

Sebagai pembanding, model binary logistic regression sebelumnya memiliki tingkat akurasi sekitar 90%, berdasarkan hasil confusion matrix dua kategori utama (Satisfied vs Not Satisfied) jauh lebih tinggi dibandingkan model multinomial. Ini menunjukkan bahwa model binary lebih sederhana tetapi jauh lebih stabil dan konsisten, sedangkan model multinomial kesulitan ketika harus membedakan tiga kategori sekaligus.

Kesimpulannya, model multinomial memiliki kemampuan prediksi di atas acak tetapi masih lemah, tidak stabil, dan kurang informatif untuk pengambilan keputusan. Diperlukan penambahan variabel relevan, perbaikan kualitas data, atau penggunaan model alternatif agar performa klasifikasi menjadi lebih andal.

1.3.2 Perbandingan Evaluasi Model Lebih Akurat dan Stabil

Aspek	Multinomial Logistic	Binary Logistic
Akurasi	43,5%	±90% (akurasi jauh lebih tinggi berdasarkan confusion matrix)
Kappa	0,15	>0,70 (jauh lebih baik)
AIC	≈ 444	≈ 73,6 (lebih efisien dan lebih baik dalam menyesuaikan data)
Konsistensi Prediksi	Rendah dan kurang stabil	Tinggi dan konsisten
Signifikansi Variabel	Banyak yang tidak signifikan	Sebagian besar variabel signifikan

Kesimpulan Akhir:

Secara keseluruhan, binary logistic regressio terbukti lebih unggul dibandingkan multinomial logistic dalam hal akurasi, stabilitas prediksi, dan efisiensi model pada dataset ini. Model binary menunjukkan akurasi yang jauh lebih tinggi, nilai Kappa yang menunjukkan kesesuaian prediksi yang kuat, serta nilai AIC yang rendah yang menandakan efisiensi model dalam menyesuaikan data.

Sebaliknya, model multinomial memang mampu memberikan informasi lebih detail mengenai peluang berpindah antar kategori (Low, Medium, High), namun performa prediksinya masih terbatas: akurasi rendah, nilai Kappa mendekati acak, serta sebagian besar variabel tidak signifikan.

Dengan demikian:

Jika tujuan utama adalah prediksi yang akurat, efisien, dan stabil, maka binary logistic regression merupakan pilihan yang lebih tepat.
Sedangkan multinomial logistic regression lebih sesuai digunakan untuk analisis deskriptif, memahami perbedaan antar level kategori, atau melihat arah pengaruh variabel terhadap tiap kategori.

1.4 Visualisasi Model Multinomial Logistic

library(ggplot2)
library(dplyr)
library(tidyr)
library(plotly)


prob_df <- as.data.frame(predict(model_mlr, type = "probs"))
prob_df <- cbind(df, prob_df)

# Konversi probabilitas ke format long
prob_all_long <- prob_df %>%
  pivot_longer(
    cols = c("Low", "Medium", "High"),
    names_to = "Target_Level",
    values_to = "Probability"
  ) %>%
  pivot_longer(
    cols = c("Advertising", "Salespeople", "Satisfaction", "Competition"),
    names_to = "Predictor",
    values_to = "Value"
  )

# Ambil nilai AIC dari model
model_aic <- AIC(model_mlr)

# Plot statis dulu
plot_multinom <- ggplot(prob_all_long, aes(x = Value, y = Probability, color = Target_Level)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "loess", se = FALSE, size = 1) +
  facet_wrap(~ Predictor, scales = "free_x") +
  labs(
    title = "Multinomial Logistic Regression – Probabilitas Prediksi Setiap Kategori",
    subtitle = paste("AIC =", round(model_aic, 2)),
    x = NULL,
    y = "Predicted Probability"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(size = 15, face = "bold", color = "red"),
    plot.subtitle = element_text(size = 12, color = "red")
  )

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

# Ubah menjadi interaktif
plotly_multinom <- ggplotly(plot_multinom)

# Tampilkan
plotly_multinom

Interpretasi :

1. Advertising

Anggaran iklan yang lebih besar tidak selalu membuat pelanggan merasa sangat puas. Ketika iklan terlalu agresif, ekspektasi pelanggan meningkat, tetapi jika pengalaman yang diberikan tidak sebanding dengan janji dalam promosi, pelanggan cenderung merasa biasa saja atau bahkan kecewa. Artinya, iklan hanya efektif menarik perhatian, namun tidak cukup untuk menciptakan tingkat kepuasan tertinggi jika tidak diimbangi kualitas layanan atau produk.

2. Salespeople

Penambahan jumlah tenaga penjualan tidak serta-merta meningkatkan kepuasan pelanggan. Banyaknya sales bisa membuat pelayanan terasa kurang personal dan lebih berorientasi pada penjualan dibandingkan membantu kebutuhan pelanggan. Akibatnya, pelanggan merasa cukup puas tetapi tidak sampai pada tingkat kepuasan tertinggi, bahkan sebagian merasa pengalaman belanjanya kurang nyaman.

3. Competition

Ketika persaingan antar penyedia layanan atau produk semakin ketat, pelanggan menjadi lebih kritis. Mereka mulai membandingkan dengan kompetitor dan tidak mudah memberikan penilaian sangat puas. Produk atau layanan hanya dianggap “cukup baik” jika tidak menunjukkan keunggulan jelas dibanding pesaing. Artinya, untuk mempertahankan kepuasan tinggi dalam kondisi kompetitif, diferensiasi dan mutu harus benar-benar terasa.

4. Satisfaction (Variabel Asli)

Semakin tinggi tingkat kepuasan pelanggan secara langsung, semakin besar kemungkinan mereka berada dalam kategori kepuasan tertinggi. Visualisasi ini menunjukkan bahwa model sudah menangkap hubungan logis antara skor satisfaction dan level kategori, sehingga valid secara statistik dan interpretatif.

Kesimpulan Umum

Dari seluruh variabel, dapat disimpulkan bahwa strategi pemasaran (Advertising), peningkatan tenaga penjual, maupun menghadapi kompetisi belum cukup untuk membentuk kepuasan tertinggi jika tidak disertai pengalaman pelanggan yang benar-benar memenuhi harapan. Kepuasan tertinggi hanya tercapai jika kualitas yang dirasakan pelanggan sejalan dengan ekspektasi, bukan dari promosi atau jumlah tim penjualan semata.

1.4.1 Perbandingan Visualisasi Antara Multinomial dengan Binary

library(ggplot2)
library(dplyr)
library(tidyr)
library(nnet)
library(plotly)

# Tambahkan variabel biner
df$Binary <- ifelse(df$Target == "High", 1, 0)

# Model Binary Logistic
model_binary <- glm(Binary ~ Advertising + Salespeople + Competition,
                    data = df, family = "binomial")
df$Prob_Binary <- predict(model_binary, type = "response")

# Model Multinomial Logistic
model_multi <- multinom(Target ~ Advertising + Salespeople + Competition, data = df)

## # weights:  15 (8 variable)
## initial  value 219.722458 
## iter  10 value 214.365442
## final  value 214.365437 
## converged

prob_multi <- as.data.frame(predict(model_multi, type = "probs"))
prob_multi <- cbind(df, prob_multi)

# Gabung data ke format long
prob_long <- prob_multi %>%
  select(Advertising, Low, Medium, High, Prob_Binary) %>%
  pivot_longer(
    cols = c("Low", "Medium", "High", "Prob_Binary"),
    names_to = "Model",
    values_to = "Probabilitas"
  )

# Pastikan faktor level
prob_long$Model <- factor(prob_long$Model, 
                          levels = c("Low", "Medium", "High", "Prob_Binary"))

# Warna yang konsisten
model_colors <- c("Low" = "green", "Medium" = "blue", "High" = "red", "Prob_Binary" = "grey")

# Membuat garis smooth loess untuk setiap model
smooth_df <- prob_long %>%
  group_by(Model) %>%
  arrange(Advertising) %>%
  do({
    fit <- loess(Probabilitas ~ Advertising, data = .)
    data.frame(Advertising = .$Advertising, Smooth = predict(fit))
  }) %>%
  ungroup() %>%
  mutate(Model = rep(levels(prob_long$Model), each = nrow(prob_long)/4))

# Buat plotly interaktif dengan warna konsisten
plot_ly() %>%
  # Titik data
  add_trace(
    data = prob_long,
    x = ~Advertising,
    y = ~Probabilitas,
    type = "scatter",
    mode = "markers",
    color = ~Model,
    colors = model_colors,
    text = ~paste("Model:", Model,
                  "<br>Probabilitas:", round(Probabilitas,3),
                  "<br>Advertising:", Advertising),
    hoverinfo = "text",
    marker = list(opacity = 0.4)
  ) %>%
  # Garis smooth
  add_trace(
    data = smooth_df,
    x = ~Advertising,
    y = ~Smooth,
    type = "scatter",
    mode = "lines",
    color = ~Model,
    colors = model_colors,
    showlegend = FALSE
  ) %>%
  layout(
    title = "Perbandingan Probabilitas Prediksi: Binary vs Multinomial Logistic",
    xaxis = list(title = "Advertising"),
    yaxis = list(title = "Probabilitas Prediksi")
  )

Interpretasi Perbandingan:

1. Model Multinomial Logistic

Kategori Low terus menurun seiring peningkatan nilai Advertising. Artinya, aktivitas iklan cukup efektif untuk menurunkan kemungkinan pelanggan merasa tidak puas.
Kategori Medium meningkat konsisten, memperlihatkan bahwa iklan lebih dominan mendorong pelanggan naik dari Low ke Medium. Ini menunjukkan efek positif, tetapi hanya sampai level menengah.
Kategori High justru perlahan menurun. Artinya, meskipun iklan memperbaiki persepsi, efeknya berhenti di level Medium dan tidak mampu mendorong pelanggan ke tingkat kepuasan maksimal. Ini menegaskan bahwa untuk mencapai kategori High, faktor lain seperti kualitas layanan, hubungan pelanggan, atau pengalaman produk menjadi lebih berpengaruh dibanding sekadar promosi.

Maka model Multinomial tidak hanya melihat apakah pelanggan puas atau tidak, tetapi bagaimana perjalanan perpindahannya antara tiga kategori, sehingga mampu menangkap dinamika perubahan perilaku pelanggan lebih detail.

2. Model Binary Logistic

Probabilitas High (Prob_Binary) menunjukkan pola yang hampir identik dengan probabilitas High dari model multinomial. Ini membuktikan bahwa model biner mampu menangkap tren utama terhadap kategori tertinggi secara konsisten.
Garis model biner juga menunjukkan kecenderungan menurun ketika Advertising meningkat, yang memperkuat kesimpulan bahwa iklan bukan pendorong signifikan menuju kepuasan tertinggi.
Namun, karena model ini hanya membedakan High vs Non-High, maka informasi penting seperti perpindahan Low ke Medium hilang. Pelanggan yang sebenarnya naik ke tingkat Medium tetap dianggap “tidak berhasil”, padahal itu adalah peningkatan.

Sehingga, Model biner lebih sederhana, lebih stabil, dan lebih mudah digunakan untuk pengambilan keputusan praktis tetapi mengorbankan kedalaman informasi transisi antar kategori.

3. Kesimpulan dan Implikasi Strategis

Kedua model memberikan kesimpulan yang konsisten bahwa iklan efektif meningkatkan kepuasan dari Low ke Medium, tetapi tidak cukup untuk mencapai kategori High. Model multinomial lebih unggul untuk memahami perubahan kepuasan secara bertahap, sedangkan model biner lebih praktis jika fokusnya hanya pada pencapaian level tertinggi.

Secara strategis, perusahaan perlu mengombinasikan aktivitas iklan dengan peningkatan kualitas layanan, pengalaman pelanggan, dan inovasi produk untuk mencapai kepuasan tertinggi secara berkelanjutan.

1.5 Referensi

[1] Boehmke, B. & Greenwell, B. M. (2021). Hands-on Machine Learning with R. CRC Press.
[2] James, G., Witten, D., Hastie, T., & Tibshirani, T. (2021). An Introduction to Statistical Learning: With Applications in R. Springer.
[3] Kuhn, M. & Silge, J. (2022). Tidy Modeling with R. O’Reilly Media.
[4] Data Science Labs. (n.d.). Seven Tools of Analysis in Sampling and Survey Techniques.
[5] Subekti, P. (2017). Analisis Faktor yang Mempengaruhi Kepuasan Pelanggan. Universitas Brawijaya.