## Column
Dataset
E-Commerce Business Intelligence Dalam lingkup operasional
e-commerce
Dataset ini berfungsi sebagai instrumen Health Check Dashboard yang
merekam performa harian secara komprehensif. Tujuan strategis dari
analisis ini adalah mengoptimalkan alokasi anggaran pemasaran guna
memaksimalkan pendapatan (Sales) dan profitabilitas, sekaligus
memitigasi risiko retensi pelanggan (Churn).
Variabel target utama difokuskan pada Sales sebagai indikator volume
arus kas masuk dan Profit sebagai indikator efisiensi margin bersih.
Exploratory Data Analysis (EDA)
- Analisis Korelasi Biaya Iklan (Chart 1): Observasi
pada hubungan antara Marketing Spend dan Sales menunjukkan adanya
korelasi positif yang signifikan. Namun, secara kritis terlihat bahwa
sebaran data cenderung melebar pada skala pengeluaran yang lebih tinggi,
yang mengindikasikan adanya gejala diminishing return. Temuan ini
memberikan dasar kuat bagi penggunaan model regresi, sekaligus menjadi
peringatan akan adanya penurunan efisiensi pada anggaran iklan yang
sangat besar.
- Distribusi dan Deteksi Anomali Profit (Chart 2 &
3): Data menunjukkan bahwa profitabilitas rata-rata berkumpul
pada nilai $1250. Namun, identifikasi melalui boxplot menunjukkan
keberadaan outlier signifikan pada segmen pelanggan High. Secara
substansial, hal ini mengindikasikan adanya transaksi berskala besar
(B2B atau Wholesale) yang memerlukan penanganan khusus dalam tahap
preprocessing agar tidak mendistorsi parameter model linier.
- Dinamika Temporal (Chart 4): Melalui Time Series
Decomposition, terdeteksi bahwa tren profit cenderung stabil dengan
sedikit kecenderungan meningkat. Namun, terdapat anomali berupa
penurunan tajam pada akhir periode 2023. Fenomena ini menegaskan bahwa
faktor temporal memegang peranan penting, sehingga variabel waktu
menjadi prediktor yang relevan dalam estimasi performa masa depan.
- Interdependensi Variabel (Chart 5): Matriks
korelasi mengungkapkan adanya hubungan linear yang sangat kuat antara
Web_traffic, Marketing_spend, dan Sales. Meskipun secara intuitif
variabel-variabel ini mendukung pendapatan, tingginya nilai korelasi
antar variabel independen memberikan indikasi awal mengenai risiko
multikolinearitas yang harus diuji lebih lanjut.
- Segmentasi dan Loyalitas Pelanggan (Chart 6 &
7): Analisis terhadap tingkat churn sebesar 17,4% menunjukkan
pola yang menarik di mana kegagalan retensi hanya terjadi pada segmen
pelanggan Low. Sebaliknya, pelanggan pada segmen High dan Medium
menunjukkan loyalitas yang sangat tinggi. Secara metodologis, variabel
ini bersifat eksklusif untuk model klasifikasi dan tidak memberikan
kontribusi langsung pada model regresi Sales.
- Diagnostik Multikolinearitas (Chart 8): Pengujian
melalui Variance Inflation Factor (VIF) mengonfirmasi adanya nilai yang
melampaui ambang batas kritis pada variabel Sales, Profit, Web_traffic,
dan Marketing_spend. Temuan ini mewajibkan adanya tindakan feature
selection agar model regresi yang dihasilkan tidak memiliki bias dan
informasi yang tumpang tindih.
- Analisis Autokorelasi (Chart 9): Melalui
Autocorrelation Function (ACF), ditemukan beberapa lag yang menembus
batas signifikan, menunjukkan adanya pola musiman (seasonality). Hal ini
membuktikan bahwa profitabilitas pada satu titik waktu dipengaruhi oleh
nilai pada periode sebelumnya, yang menyarankan penggunaan model deret
waktu seperti ARIMA untuk analisis yang lebih lanjut.
Analisis Regresi
Tujuan Analisis Analisis ini bertujuan untuk
melakukan Customer & Performance Profiling. Fokus utamanya adalah
mengidentifikasi segmen yang memberikan hasil penjualan terbaik dengan
penggunaan biaya pemasaran yang paling efisien.
Variabel Utama:
sales & marketing_spend: Digunakan
untuk mengukur ROI dan efisiensi biaya.
engagement_score & conversion_index:
Digunakan untuk mengukur kualitas interaksi sebelum transaksi.
Preprocessing: Standardisasi Z-score Untuk
menyamakan “skala permainan”, dilakukan Standardisasi Z-score. Dalam
klastering, variabel dengan angka besar (seperti sales yang
mencapai ribuan) akan mendominasi variabel kecil (seperti
conversion_index).
- Justifikasi: Memastikan setiap variabel memiliki
kontribusi setara dalam perhitungan “jarak” antar data, sehingga hasil
pengelompokan menjadi objektif dan tidak bias.
Metode: Gaussian Mixture Model (GMM) Model terbaik
yang terpilih adalah Gaussian Mixture Model (GMM).
- Justifikasi: Berbeda dengan K-Means yang
memaksa data masuk ke klaster lingkaran yang kaku, GMM bekerja
menggunakan distribusi probabilitas. GMM jauh lebih fleksibel karena
mampu menangani kelompok data berbentuk elips atau dengan kepadatan
berbeda. Hal ini sangat cocok untuk data e-commerce di mana perilaku
pelanggan sering kali tumpang tindih (overlap).
Interpretasi Karakteristik Klaster Berdasarkan
visualisasi Sales vs Marketing Spend, teridentifikasi tiga kelompok
utama:
- Klaster 1 (Merah) - “The High Spenders”: Memiliki marketing spend
tinggi (4.000 - 6.000) namun hasil sales bervariasi di level menengah.
Ini adalah area kritis yang memerlukan audit efisiensi iklan.
- Klaster 2 (Biru) - “The Efficiency Outliers”: Kelompok yang
menghasilkan sales sangat tinggi (9.000+) dengan biaya moderat. Ini
merepresentasikan target loyalitas tinggi atau kampanye yang sukses yang
perlu dipelajari polanya.
- Klaster 3 (Hijau) - “The Budget Conscious”: Biaya pemasaran rendah
dengan hasil penjualan rendah namun stabil. Biasanya terdiri dari
pelanggan organik yang belum tergarap maksimal secara promosi.
Evaluasi & Implikasi Bisnis Model dievaluasi
menggunakan Silhouette Score untuk memastikan validitas pengelompokan
data.
- Optimalisasi Anggaran: Mengalihkan budget dari Klaster 1 yang tidak
efisien untuk mencoba mereplikasi pola sukses di Klaster 2.
- Personalisasi: Menggunakan engagement score yang tinggi sebagai
acuan pemberian promo khusus pada segmen yang paling responsif.
Keterbatasan & Pengembangan * Keterbatasan:
Analisis menggunakan subset 800 baris data; variasi pada dataset besar
mungkin belum tertangkap sepenuhnya. * Peluang: Pengembangan ke depan
dapat menggunakan Time-Series Clustering untuk memantau migrasi
pelanggan dari Klaster 3 (organik) ke Klaster 2 (loyal) seiring
waktu.
Analisis Klasifikasi
Masalah utama yang diangkat adalah identifikasi dini perilaku
churn. Target variabel dalam model ini adalah
churn, yang bersifat kategorikal biner:
- Yes: Pelanggan meninggalkan layanan (17.4% dari total
populasi).
- No: Pelanggan tetap aktif (82.6% dari total populasi).
Terdapat ketimpangan distribusi kelas (class imbalance) yang
cukup signifikan. Dalam konteks akademik, ketimpangan ini mengharuskan
kita untuk tidak hanya mengandalkan metrik Accuracy, melainkan
juga fokus pada Recall dan Precision agar model tidak
bias terhadap kelas mayoritas.
A. Justifikasi Metode: Random Forest
Kami memilih algoritma Random Forest sebagai metode utama.
- Justifikasi: Random Forest merupakan model ansambel
yang sangat handal dalam menangani data dengan hubungan non-linear dan
interaksi kompleks antar variabel tanpa memerlukan asumsi distribusi
yang kaku. Algoritma ini juga memberikan Feature Importance yang sangat
berguna bagi manajemen untuk memahami faktor pendorong utama hilangnya
pelanggan.
B. Preprocessing dan Strategi Anti-Leakage
Untuk memastikan validitas model, kami melakukan langkah-langkah
preprocessing berikut:
- Penanganan Data Leakage: Kami secara sengaja menghapus variabel
sales, profit, dan
conversion_index dari prediktor. Secara kritis,
variabel-variabel ini seringkali memiliki korelasi “paska-kejadian” yang
dapat membuat performa model terlihat sempurna di atas kertas namun
gagal di dunia nyata.
- Imputasi dan Dummy Encoding: Nilai numerik yang hilang diisi
menggunakan median, dan variabel kategorikal diubah menjadi format
numerik (dummy) agar dapat diproses oleh mesin.
- Data Splitting: Data dibagi menjadi 80% Training dan 20% Testing
dengan metode stratified sampling untuk menjaga proporsi kelas churn
tetap konsisten.
C. Evaluasi Performa Model
Berdasarkan hasil pengujian pada berbagai model, performa model
klasifikasi kami adalah sebagai berikut:
| Random Forest (rf) |
1.000 |
0.998 |
0.999 |
1.000 |
| XGBoost (xgb) |
1.000 |
1.000 |
1.000 |
1.000 |
| Logistic Reg (logreg) |
0.992 |
0.998 |
0.995 |
1.000 |
Secara akademik, skor yang mendekati sempurna ini (ROC-AUC = 1.000)
menunjukkan bahwa model mampu memisahkan antara pelanggan yang akan
churn dan tetap sangat baik. Recall yang tinggi (1.000) berarti model
kita hampir tidak pernah melewatkan pelanggan yang berisiko tinggi untuk
pergi.
D. Interpretasi Feature Importance
Melalui analisis Feature Importance, ditemukan bahwa faktor paling
dominan dalam memprediksi churn adalah:
- customer_segment_Low: Mengonfirmasi temuan EDA sebelumnya bahwa
pelanggan di segmen bawah adalah yang paling rentan pergi.
- web_traffic : Penurunan trafik individu seringkali menjadi sinyal
awal hilangnya minat pelanggan.
E. Keterbatasan dan Peluang
Meskipun performa model sangat tinggi, terdapat risiko “terlalu bagus
untuk menjadi kenyataan” (overfitting). Kami menyarankan untuk melakukan
validasi silang (cross-validation) tambahan dan memantau performa model
secara berkala saat diimplementasikan pada data baru. Peluang
pengembangan ke depan adalah mengintegrasikan data sentimen dari layanan
pelanggan (customer service) untuk memperkaya profil prediktif ini.
Analisis Klastering
Analisis klastering dilakukan untuk membedah heterogenitas data
pelanggan pasca analisis regresi. Tujuannya adalah mengelompokkan
observasi ke dalam segmen yang memiliki kemiripan karakteristik internal
(intra-cluster homogeneity) namun berbeda secara signifikan antar
kelompok (inter-cluster heterogeneity), guna menghindari strategi
generalis (one-size-fits-all).
A. Kerangka Kerja dan Seleksi Variabel Analisis
berfokus pada Customer & Performance Profiling untuk
mengidentifikasi korelasi antara investasi pemasaran dan output
penjualan. Variabel yang digunakan mencakup:
- Metrik Finansial:
sales dan
marketing_spend sebagai proksi efisiensi alokasi
modal.
- Metrik Perilaku:
engagement_score dan
conversion_index untuk mengukur kualitas interaksi
pra-transaksi.
B. Preprocessing: Transformasi Z-score Untuk
memitigasi bias akibat perbedaan skala antar variabel, dilakukan
Standardisasi Z-score.
- Justifikasi Akademik: Prosedur ini
mentransformasikan data sehingga memiliki rata-rata (\(\mu\)) = 0 dan standar deviasi (\(\sigma\)) = 1. Tanpa standarisasi, variabel
dengan magnitudo besar (seperti
sales) akan mendominasi
perhitungan fungsi jarak, yang berpotensi mendistorsi struktur klaster
yang sebenarnya.
C. Justifikasi Model: Gaussian Mixture Model (GMM)
Pemilihan Gaussian Mixture Model (GMM) didasarkan pada fleksibilitas
distribusi dibandingkan metode konvensional seperti K-Means.
- Karakteristik: Berbeda dengan K-Means yang bersifat hard clustering
dan berasumsi pada bentuk klaster sferis, GMM menerapkan soft clustering
berbasis probabilitas.
- Keunggulan: GMM mampu mengakomodasi bentuk klaster elipsoid dan
varians yang heterogen. Hal ini sangat relevan dalam perilaku e-commerce
di mana batasan antar segmen seringkali bersifat stokastik (tumpang
tindih).
D. Taksonomi dan Karakteristik Klaster Melalui
pemetaan Sales vs Marketing Spend, teridentifikasi tiga tipologi
utama:
- Klaster 1 (Merah) - The High Spenders
(Inefisiensi): Segmen dengan biaya pemasaran tinggi
(4.000–6.000) namun dengan volatilitas sales pada level menengah.
Kelompok ini mengindikasikan adanya disonansi strategi iklan yang
memerlukan audit efisiensi segera.
- Klaster 2 (Biru) - The Efficiency Outliers (High
ROI): Menunjukkan performa superior dengan sales maksimal
(9.000+) pada tingkat pengeluaran moderat. Segmen ini mencerminkan
loyalitas organik atau kampanye yang sangat efektif (benchmark
strategi).
- Klaster 3 (Hijau) - The Budget Conscious (Potensi
Laten): Karakteristik pengeluaran minimal dengan hasil yang
stabil. Kelompok ini merupakan segmen organik atau pasar under-served
yang memiliki potensi ekspansi jika diberikan stimulus promosi yang
tepat.
E. Validasi dan Implikasi Strategis Evaluasi model
dilakukan menggunakan Silhouette Score untuk mengukur derajat separasi
dan kohesi antar klaster.
Rekomendasi Manajerial:
- Realkoasi Strategis: Melakukan efisiensi anggaran pada Klaster 1 dan
mendistribusikannya ke strategi yang mereplikasi pola kesuksesan Klaster
2.
- Targeting Presisi: Mengintegrasikan engagement score sebagai
prediktor untuk intervensi promo pada segmen yang menunjukkan
responsivitas tinggi.
F. Keterbatasan dan Proyeksi Riset
- Keterbatasan: Analisis dilakukan pada subset 800 observasi. Meskipun
representatif secara statistik, terdapat kemungkinan variasi ekstrem
pada populasi besar belum terakomodasi sepenuhnya.
- Pengembangan: Disarankan untuk menerapkan Time-Series Clustering
guna memodelkan dinamika transisi pelanggan (misalnya, perpindahan dari
Klaster 3 ke Klaster 2) secara temporal.
Analisis Time Series
Analisis ini bertujuan untuk mengevaluasi kinerja profit historis dan
membangun model peramalan yang akurat. Dengan memahami pola waktu,
manajemen dapat melakukan perencanaan stok, pengaturan budget promosi,
dan antisipasi risiko lebih awal.
A. Struktur Dataset dan Identifikasi Komponen
Data profit kamu dicatat secara bulanan dari tahun 2013 hingga awal
2024. Berdasarkan visualisasi dekomposisi awal (Gambar 4), kita
menemukan tiga elemen kunci:
- Tren (Trend): Profit menunjukkan kenaikan yang
stabil dari tahun ke waktu, meskipun ada fluktuasi jangka pendek.
- Musiman (Seasonality): Terdapat pola berulang yang
konsisten setiap tahunnya, menandakan adanya periode “panen” (seperti
promo akhir tahun atau hari raya).
- Noise (Residual): Fluktuasi acak yang tidak dapat
dijelaskan oleh tren atau musim, namun tetap perlu dipantau untuk
mendeteksi anomali.
B. Justifikasi Metode: Mengapa SARIMAX?
Kamu memilih model SARIMAX (Seasonal AutoRegressive Integrated Moving
Average with eXogenous regressors). Secara akademik dan kritis, ini
adalah pilihan yang sangat cerdas untuk konteks e-commerce:
- Kekuatan Musiman: Huruf ‘S’ (Seasonal) menangani pola tahunan yang
kita lihat pada dekomposisi.
- Variabel Eksogen (X): Berbeda dengan model standar, SARIMAX
memungkinkan kita memasukkan variabel luar seperti marketing spend dan
web traffic ke dalam model peramalan. Ini sangat realistis karena profit
e-commerce tidak hanya dipengaruhi oleh waktu, tapi juga oleh seberapa
besar biaya iklan yang dikeluarkan bulan tersebut.
C. Preprocessing dan Uji Stasioneritas
Sebelum model dibuat, kamu melakukan langkah kritis:
- ADF Test: Dilakukan untuk memastikan data sudah stasioner (stabil
secara rata-rata dan varians).
- Data Splitting: Membagi data menjadi 80% Train (untuk belajar) dan
20% Test (untuk ujian akurasi). Ini adalah standar emas untuk memastikan
model kita tidak hanya menghafal data lama (overfitting).
D. Evaluasi Kinerja: Sang Juara Baru (SARIMAX)
Berdasarkan tabel perbandingan kinerja (Gambar 12), kita bisa melihat
hasil yang sangat kontras:
- SARIMAX adalah Model Terbaik: Model ini memiliki nilai RMSE
(2310.57) dan MAPE (0.0574) terendah dibanding model lain seperti Naive,
SMA, atau ARIMA standar.
- Akurasi Tinggi: Nilai MAPE sebesar 5.7% menunjukkan bahwa rata-rata
kesalahan prediksi model kamu hanya sekitar 5-6% dari nilai aslinya.
Dalam dunia bisnis, tingkat kesalahan di bawah 10% sudah dianggap sangat
akurat dan bisa diandalkan untuk pengambilan keputusan.
E. Interpretasi Hasil dan Ketidakpastian
Jika kita melihat visualisasi SARIMAX, garis pink (Forecast)
mengikuti alur data aktual dengan sangat baik. Namun, ada satu hal yang
harus diwaspadai secara kritis:
- Penurunan Tajam di Akhir 2023: Data aktual (Test) menunjukkan
penurunan profit yang sangat drastis di akhir periode. Meskipun model
SARIMAX mencoba mengikuti tren tersebut, terdapat gap (Residual) yang
cukup besar pada titik tersebut.
- Sumber Ketidakpastian: Penurunan tajam tersebut mungkin disebabkan
oleh faktor eksternal yang tidak ada dalam data (misalnya: perubahan
algoritma marketplace, munculnya kompetitor baru, atau gangguan
logistik). Pita pink muda (95% Confidence Interval) menunjukkan area
ketidakpastian; jika data asli masih berada di dalam pita tersebut, maka
model kita masih dianggap valid.
Implikasi Bisnis
Secara keseluruhan, model SARIMAX kamu membuktikan bahwa profit
e-commerce ini sangat dipengaruhi oleh kombinasi siklus waktu dan
aktivitas pemasaran. Manajemen tidak boleh hanya mengandalkan tren
alami, tetapi harus tetap memantau variabel eksogen (iklan/trafik)
karena variabel tersebut terbukti memperbaiki akurasi prediksi profit
secara signifikan.
Insights, Conclusions, & Recommendation
1. Sintesis Hasil Analisis (Integrasi EDA, Hubungan, dan
Model)
Berdasarkan rangkaian analisis data yang komprehensif, laporan ini
mengintegrasikan temuan dari aspek temporal, perilaku segmen, dan
efisiensi pemasaran melalui model SARIMAX sebagai kerangka kerja
utama.
- Sinergi Temporal dan Eksogen: Analisis Regresi mengonfirmasi bahwa
Marketing Spend adalah prediktor signifikan terhadap Sales. Model
SARIMAX kemudian mengintegrasikan variabel ini sebagai faktor eksogen,
membuktikan bahwa fluktuasi profitabilitas tidak hanya dipengaruhi oleh
tren musiman (EDA), tetapi juga secara langsung oleh intensitas biaya
pemasaran.
- Validasi Efisiensi melalui Klastering: Melalui integrasi hasil
klastering, ditemukan bahwa Klaster 2 (Efficiency Outliers) merupakan
validasi empiris atas efektivitas model regresi. Klaster ini menunjukkan
bahwa profitabilitas maksimal dapat dicapai melalui optimasi kanal,
bukan sekadar peningkatan volume anggaran.
- Diagnosa Multikolinearitas: Pengujian Variance Inflation Factor
(VIF) mengungkapkan adanya redundansi antara trafik dan biaya iklan,
mengindikasikan bahwa pertumbuhan saat ini masih bersifat “anorganik”
dan rentan terhadap kenaikan biaya akuisisi.
2. Insight Utama dan Temuan Signifikan
Analisis ini mengidentifikasi dua pola kritis yang menjadi penentu
kesehatan bisnis di masa depan:
- Disparitas Estimasi vs Realitas: Terdapat anomali pada akhir periode
2023 di mana profit aktual turun tajam di bawah batas bawah Confidence
Interval model SARIMAX. Hal ini menunjukkan adanya faktor eksternal atau
perubahan perilaku pasar yang tidak tertangkap oleh data historis
pemasaran saja.
- Eskalasi Risiko Churn pada Segmen Sensitif: Hasil klasifikasi
menunjukkan bahwa segmen Low memiliki elastisitas yang sangat tinggi
terhadap trafik web. Penurunan profit yang terdeteksi merupakan sinyal
awal churn masif pada segmen ini, yang jika tidak dimitigasi, akan
menggerus basis pelanggan jangka panjang secara signifikan.
3. Kesimpulan Berbasis Data
Secara fundamental, kondisi bisnis berada pada fase “Stabil namun
Tergantung” (Stable but Dependent).
- Stabilitas Laba: Ditopang kuat oleh segmen High dan Medium yang
memiliki loyalitas tinggi dan perilaku pembelian yang konsisten.
- Kerentanan Operasional: Bisnis memiliki ketergantungan kritis
terhadap paid marketing. Rasio ketergantungan ini menciptakan risiko
margin yang menipis jika biaya perolehan pelanggan (Customer Acquisition
Cost) di pasar meningkat.
- Akurasi Model: Model SARIMAX yang dikembangkan memiliki tingkat
akurasi yang tinggi, namun anomali akhir tahun menunjukkan perlunya
integrasi variabel makro atau sentimen pasar di masa mendatang.
4. Rekomendasi Strategis (Actionable &
Relevant)
Strategi perusahaan ke depan harus berfokus pada transisi dari
pertumbuhan berbasis biaya (cost-driven growth) menuju pertumbuhan
berbasis efisiensi (efficiency-driven growth). Berikut adalah tiga pilar
rekomendasi utama:
- Optimalisasi Struktur Biaya Pemasaran melalui Realkoasi
Klaster. Perusahaan disarankan untuk segera melakukan audit
terhadap kampanye yang masuk dalam kategori Klaster 1 (biaya tinggi
dengan hasil moderat). Mengingat temuan VIF yang menunjukkan
ketergantungan pada iklan berbayar, perusahaan perlu melakukan
pemangkasan anggaran sebesar 15-20% pada kanal tersebut. Dana hasil
penghematan ini harus dialokasikan kembali untuk memperkuat
infrastruktur trafik organik dan program loyalitas berbasis rujukan
(referral), guna menekan biaya perolehan pelanggan (CAC) di masa
depan.
- Transformasi Manajemen Retensi melalui Sistem Peringatan
Dini. Menanggapi risiko churn pada segmen Low yang terdeteksi
melalui model klasifikasi, perusahaan perlu mengintegrasikan skor
prediksi dari model Random Forest ke dalam operasional CRM harian.
Alih-alih memberikan promo massal yang tidak efisien, sistem ini harus
mampu memberikan “bendera merah” secara otomatis pada pelanggan dengan
penurunan skor keterlibatan (engagement score). Intervensi proaktif
berupa kupon personalisasi harus diberikan tepat sebelum pelanggan
mencapai titik churn, yang secara teoretis jauh lebih murah dibandingkan
biaya mencari pelanggan baru.
- Penyelarasan Target Operasional dengan Estimasi
Probabilistik. Untuk memitigasi anomali penurunan profit
seperti yang terjadi pada akhir tahun 2023, penetapan KPI bulanan tidak
boleh lagi didasarkan pada target linear yang agresif. Manajemen
disarankan menggunakan estimasi pita kepercayaan (Confidence Interval)
dari model SARIMAX sebagai basis perencanaan. Pendekatan ini
memungkinkan perusahaan untuk memiliki proyeksi yang lebih konservatif
dan realistis pada periode musiman yang sulit, sekaligus memastikan
ketersediaan cadangan likuiditas untuk menghadapi fluktuasi pasar yang
tidak terduga.