Members

Members

Dataset

EDA

## Column

Outlier Analysis

Distribusi Profit

Hubungan Marketing spend vs sales

Dekomposisi profit

Matriks Korelasi

Proporsi Churn per Segmen Pelanggan

Distribusi Persentase Churn

Multikolinearitas (VIF)

Autocorrelation Function (ACF)

Regresi

Students are required to:


Klasifikasi

Students are required to:


Klastering

Students are required to:


Time Series

Students are required to:


Insights

## Column

Dataset

E-Commerce Business Intelligence Dalam lingkup operasional e-commerce

Dataset ini berfungsi sebagai instrumen Health Check Dashboard yang merekam performa harian secara komprehensif. Tujuan strategis dari analisis ini adalah mengoptimalkan alokasi anggaran pemasaran guna memaksimalkan pendapatan (Sales) dan profitabilitas, sekaligus memitigasi risiko retensi pelanggan (Churn).

Variabel target utama difokuskan pada Sales sebagai indikator volume arus kas masuk dan Profit sebagai indikator efisiensi margin bersih.

Exploratory Data Analysis (EDA)

  1. Analisis Korelasi Biaya Iklan (Chart 1): Observasi pada hubungan antara Marketing Spend dan Sales menunjukkan adanya korelasi positif yang signifikan. Namun, secara kritis terlihat bahwa sebaran data cenderung melebar pada skala pengeluaran yang lebih tinggi, yang mengindikasikan adanya gejala diminishing return. Temuan ini memberikan dasar kuat bagi penggunaan model regresi, sekaligus menjadi peringatan akan adanya penurunan efisiensi pada anggaran iklan yang sangat besar.

  1. Distribusi dan Deteksi Anomali Profit (Chart 2 & 3): Data menunjukkan bahwa profitabilitas rata-rata berkumpul pada nilai $1250. Namun, identifikasi melalui boxplot menunjukkan keberadaan outlier signifikan pada segmen pelanggan High. Secara substansial, hal ini mengindikasikan adanya transaksi berskala besar (B2B atau Wholesale) yang memerlukan penanganan khusus dalam tahap preprocessing agar tidak mendistorsi parameter model linier.

  1. Dinamika Temporal (Chart 4): Melalui Time Series Decomposition, terdeteksi bahwa tren profit cenderung stabil dengan sedikit kecenderungan meningkat. Namun, terdapat anomali berupa penurunan tajam pada akhir periode 2023. Fenomena ini menegaskan bahwa faktor temporal memegang peranan penting, sehingga variabel waktu menjadi prediktor yang relevan dalam estimasi performa masa depan.

  1. Interdependensi Variabel (Chart 5): Matriks korelasi mengungkapkan adanya hubungan linear yang sangat kuat antara Web_traffic, Marketing_spend, dan Sales. Meskipun secara intuitif variabel-variabel ini mendukung pendapatan, tingginya nilai korelasi antar variabel independen memberikan indikasi awal mengenai risiko multikolinearitas yang harus diuji lebih lanjut.

  1. Segmentasi dan Loyalitas Pelanggan (Chart 6 & 7): Analisis terhadap tingkat churn sebesar 17,4% menunjukkan pola yang menarik di mana kegagalan retensi hanya terjadi pada segmen pelanggan Low. Sebaliknya, pelanggan pada segmen High dan Medium menunjukkan loyalitas yang sangat tinggi. Secara metodologis, variabel ini bersifat eksklusif untuk model klasifikasi dan tidak memberikan kontribusi langsung pada model regresi Sales.

  1. Diagnostik Multikolinearitas (Chart 8): Pengujian melalui Variance Inflation Factor (VIF) mengonfirmasi adanya nilai yang melampaui ambang batas kritis pada variabel Sales, Profit, Web_traffic, dan Marketing_spend. Temuan ini mewajibkan adanya tindakan feature selection agar model regresi yang dihasilkan tidak memiliki bias dan informasi yang tumpang tindih.

  1. Analisis Autokorelasi (Chart 9): Melalui Autocorrelation Function (ACF), ditemukan beberapa lag yang menembus batas signifikan, menunjukkan adanya pola musiman (seasonality). Hal ini membuktikan bahwa profitabilitas pada satu titik waktu dipengaruhi oleh nilai pada periode sebelumnya, yang menyarankan penggunaan model deret waktu seperti ARIMA untuk analisis yang lebih lanjut.

Analisis Regresi

Tujuan Analisis :

Analisis ini bertujuan untuk melakukan Customer & Performance Profiling. Fokus utamanya adalah mengidentifikasi segmen yang memberikan hasil penjualan terbaik dengan penggunaan biaya pemasaran yang paling efisien.

Variabel Utama:

  • sales & marketing_spend: Digunakan untuk mengukur ROI dan efisiensi biaya.
  • engagement_score & conversion_index: Digunakan untuk mengukur kualitas interaksi sebelum transaksi.

Preprocessing: Standardisasi Z-score Untuk menyamakan “skala permainan”, dilakukan Standardisasi Z-score. Dalam klastering, variabel dengan angka besar (seperti sales yang mencapai ribuan) akan mendominasi variabel kecil (seperti conversion_index).

  • Justifikasi: Memastikan setiap variabel memiliki kontribusi setara dalam perhitungan “jarak” antar data, sehingga hasil pengelompokan menjadi objektif dan tidak bias.

Metode: Gaussian Mixture Model (GMM) Model terbaik yang terpilih adalah Gaussian Mixture Model (GMM).

  • Justifikasi: Berbeda dengan K-Means yang memaksa data masuk ke klaster lingkaran yang kaku, GMM bekerja menggunakan distribusi probabilitas. GMM jauh lebih fleksibel karena mampu menangani kelompok data berbentuk elips atau dengan kepadatan berbeda. Hal ini sangat cocok untuk data e-commerce di mana perilaku pelanggan sering kali tumpang tindih (overlap).

Interpretasi Karakteristik Klaster Berdasarkan visualisasi Sales vs Marketing Spend, teridentifikasi tiga kelompok utama:

  1. Klaster 1 (Merah) - “The High Spenders”: Memiliki marketing spend tinggi (4.000 - 6.000) namun hasil sales bervariasi di level menengah. Ini adalah area kritis yang memerlukan audit efisiensi iklan.
  2. Klaster 2 (Biru) - “The Efficiency Outliers”: Kelompok yang menghasilkan sales sangat tinggi (9.000+) dengan biaya moderat. Ini merepresentasikan target loyalitas tinggi atau kampanye yang sukses yang perlu dipelajari polanya.
  3. Klaster 3 (Hijau) - “The Budget Conscious”: Biaya pemasaran rendah dengan hasil penjualan rendah namun stabil. Biasanya terdiri dari pelanggan organik yang belum tergarap maksimal secara promosi.

Evaluasi & Implikasi Bisnis Model dievaluasi menggunakan Silhouette Score untuk memastikan validitas pengelompokan data.

  • Optimalisasi Anggaran: Mengalihkan budget dari Klaster 1 yang tidak efisien untuk mencoba mereplikasi pola sukses di Klaster 2.
  • Personalisasi: Menggunakan engagement score yang tinggi sebagai acuan pemberian promo khusus pada segmen yang paling responsif.

Keterbatasan & Pengembangan * Keterbatasan: Analisis menggunakan subset 800 baris data; variasi pada dataset besar mungkin belum tertangkap sepenuhnya. * Peluang: Pengembangan ke depan dapat menggunakan Time-Series Clustering untuk memantau migrasi pelanggan dari Klaster 3 (organik) ke Klaster 2 (loyal) seiring waktu.

Analisis Klasifikasi

Masalah utama yang diangkat adalah identifikasi dini perilaku churn. Target variabel dalam model ini adalah churn, yang bersifat kategorikal biner:

  • Yes: Pelanggan meninggalkan layanan (17.4% dari total populasi).
  • No: Pelanggan tetap aktif (82.6% dari total populasi).

Terdapat ketimpangan distribusi kelas (class imbalance) yang cukup signifikan. Dalam konteks akademik, ketimpangan ini mengharuskan kita untuk tidak hanya mengandalkan metrik Accuracy, melainkan juga fokus pada Recall dan Precision agar model tidak bias terhadap kelas mayoritas.


A. Justifikasi Metode: Random Forest

Kami memilih algoritma Random Forest sebagai metode utama.

  • Justifikasi: Random Forest merupakan model ansambel yang sangat handal dalam menangani data dengan hubungan non-linear dan interaksi kompleks antar variabel tanpa memerlukan asumsi distribusi yang kaku. Algoritma ini juga memberikan Feature Importance yang sangat berguna bagi manajemen untuk memahami faktor pendorong utama hilangnya pelanggan.

B. Preprocessing dan Strategi Anti-Leakage

Untuk memastikan validitas model, kami melakukan langkah-langkah preprocessing berikut:

  1. Penanganan Data Leakage: Kami secara sengaja menghapus variabel sales, profit, dan conversion_index dari prediktor. Secara kritis, variabel-variabel ini seringkali memiliki korelasi “paska-kejadian” yang dapat membuat performa model terlihat sempurna di atas kertas namun gagal di dunia nyata.
  2. Imputasi dan Dummy Encoding: Nilai numerik yang hilang diisi menggunakan median, dan variabel kategorikal diubah menjadi format numerik (dummy) agar dapat diproses oleh mesin.
  3. Data Splitting: Data dibagi menjadi 80% Training dan 20% Testing dengan metode stratified sampling untuk menjaga proporsi kelas churn tetap konsisten.

C. Evaluasi Performa Model

Berdasarkan hasil pengujian pada berbagai model, performa model klasifikasi kami adalah sebagai berikut:

Model Recall Precision F1-Score ROC-AUC
Random Forest (rf) 1.000 0.998 0.999 1.000
XGBoost (xgb) 1.000 1.000 1.000 1.000
Logistic Reg (logreg) 0.992 0.998 0.995 1.000

Secara akademik, skor yang mendekati sempurna ini (ROC-AUC = 1.000) menunjukkan bahwa model mampu memisahkan antara pelanggan yang akan churn dan tetap sangat baik. Recall yang tinggi (1.000) berarti model kita hampir tidak pernah melewatkan pelanggan yang berisiko tinggi untuk pergi.


D. Interpretasi Feature Importance

Melalui analisis Feature Importance, ditemukan bahwa faktor paling dominan dalam memprediksi churn adalah:

  1. customer_segment_Low: Mengonfirmasi temuan EDA sebelumnya bahwa pelanggan di segmen bawah adalah yang paling rentan pergi.
  2. web_traffic : Penurunan trafik individu seringkali menjadi sinyal awal hilangnya minat pelanggan.

E. Keterbatasan dan Peluang

Meskipun performa model sangat tinggi, terdapat risiko “terlalu bagus untuk menjadi kenyataan” (overfitting). Kami menyarankan untuk melakukan validasi silang (cross-validation) tambahan dan memantau performa model secara berkala saat diimplementasikan pada data baru. Peluang pengembangan ke depan adalah mengintegrasikan data sentimen dari layanan pelanggan (customer service) untuk memperkaya profil prediktif ini.

Analisis Klastering

Analisis klastering dilakukan untuk membedah heterogenitas data pelanggan pasca analisis regresi. Tujuannya adalah mengelompokkan observasi ke dalam segmen yang memiliki kemiripan karakteristik internal (intra-cluster homogeneity) namun berbeda secara signifikan antar kelompok (inter-cluster heterogeneity), guna menghindari strategi generalis (one-size-fits-all).

A. Kerangka Kerja dan Seleksi Variabel Analisis berfokus pada Customer & Performance Profiling untuk mengidentifikasi korelasi antara investasi pemasaran dan output penjualan. Variabel yang digunakan mencakup:

  • Metrik Finansial: sales dan marketing_spend sebagai proksi efisiensi alokasi modal.
  • Metrik Perilaku: engagement_score dan conversion_index untuk mengukur kualitas interaksi pra-transaksi.

B. Preprocessing: Transformasi Z-score Untuk memitigasi bias akibat perbedaan skala antar variabel, dilakukan Standardisasi Z-score.

  • Justifikasi Akademik: Prosedur ini mentransformasikan data sehingga memiliki rata-rata (\(\mu\)) = 0 dan standar deviasi (\(\sigma\)) = 1. Tanpa standarisasi, variabel dengan magnitudo besar (seperti sales) akan mendominasi perhitungan fungsi jarak, yang berpotensi mendistorsi struktur klaster yang sebenarnya.

C. Justifikasi Model: Gaussian Mixture Model (GMM) Pemilihan Gaussian Mixture Model (GMM) didasarkan pada fleksibilitas distribusi dibandingkan metode konvensional seperti K-Means.

  • Karakteristik: Berbeda dengan K-Means yang bersifat hard clustering dan berasumsi pada bentuk klaster sferis, GMM menerapkan soft clustering berbasis probabilitas.
  • Keunggulan: GMM mampu mengakomodasi bentuk klaster elipsoid dan varians yang heterogen. Hal ini sangat relevan dalam perilaku e-commerce di mana batasan antar segmen seringkali bersifat stokastik (tumpang tindih).

D. Taksonomi dan Karakteristik Klaster Melalui pemetaan Sales vs Marketing Spend, teridentifikasi tiga tipologi utama:

  1. Klaster 1 (Merah) - The High Spenders (Inefisiensi): Segmen dengan biaya pemasaran tinggi (4.000–6.000) namun dengan volatilitas sales pada level menengah. Kelompok ini mengindikasikan adanya disonansi strategi iklan yang memerlukan audit efisiensi segera.
  2. Klaster 2 (Biru) - The Efficiency Outliers (High ROI): Menunjukkan performa superior dengan sales maksimal (9.000+) pada tingkat pengeluaran moderat. Segmen ini mencerminkan loyalitas organik atau kampanye yang sangat efektif (benchmark strategi).
  3. Klaster 3 (Hijau) - The Budget Conscious (Potensi Laten): Karakteristik pengeluaran minimal dengan hasil yang stabil. Kelompok ini merupakan segmen organik atau pasar under-served yang memiliki potensi ekspansi jika diberikan stimulus promosi yang tepat.

E. Validasi dan Implikasi Strategis Evaluasi model dilakukan menggunakan Silhouette Score untuk mengukur derajat separasi dan kohesi antar klaster.

Rekomendasi Manajerial:

  • Realkoasi Strategis: Melakukan efisiensi anggaran pada Klaster 1 dan mendistribusikannya ke strategi yang mereplikasi pola kesuksesan Klaster 2.
  • Targeting Presisi: Mengintegrasikan engagement score sebagai prediktor untuk intervensi promo pada segmen yang menunjukkan responsivitas tinggi.

F. Keterbatasan dan Proyeksi Riset

  • Keterbatasan: Analisis dilakukan pada subset 800 observasi. Meskipun representatif secara statistik, terdapat kemungkinan variasi ekstrem pada populasi besar belum terakomodasi sepenuhnya.
  • Pengembangan: Disarankan untuk menerapkan Time-Series Clustering guna memodelkan dinamika transisi pelanggan (misalnya, perpindahan dari Klaster 3 ke Klaster 2) secara temporal.

Analisis Time Series

Analisis ini bertujuan untuk mengevaluasi kinerja profit historis dan membangun model peramalan yang akurat. Dengan memahami pola waktu, manajemen dapat melakukan perencanaan stok, pengaturan budget promosi, dan antisipasi risiko lebih awal.

A. Struktur Dataset dan Identifikasi Komponen

Data profit kamu dicatat secara bulanan dari tahun 2013 hingga awal 2024. Berdasarkan visualisasi dekomposisi awal (Gambar 4), kita menemukan tiga elemen kunci:

  • Tren (Trend): Profit menunjukkan kenaikan yang stabil dari tahun ke waktu, meskipun ada fluktuasi jangka pendek.
  • Musiman (Seasonality): Terdapat pola berulang yang konsisten setiap tahunnya, menandakan adanya periode “panen” (seperti promo akhir tahun atau hari raya).
  • Noise (Residual): Fluktuasi acak yang tidak dapat dijelaskan oleh tren atau musim, namun tetap perlu dipantau untuk mendeteksi anomali.

B. Justifikasi Metode: Mengapa SARIMAX?

Kamu memilih model SARIMAX (Seasonal AutoRegressive Integrated Moving Average with eXogenous regressors). Secara akademik dan kritis, ini adalah pilihan yang sangat cerdas untuk konteks e-commerce:

  • Kekuatan Musiman: Huruf ‘S’ (Seasonal) menangani pola tahunan yang kita lihat pada dekomposisi.
  • Variabel Eksogen (X): Berbeda dengan model standar, SARIMAX memungkinkan kita memasukkan variabel luar seperti marketing spend dan web traffic ke dalam model peramalan. Ini sangat realistis karena profit e-commerce tidak hanya dipengaruhi oleh waktu, tapi juga oleh seberapa besar biaya iklan yang dikeluarkan bulan tersebut.

C. Preprocessing dan Uji Stasioneritas

Sebelum model dibuat, kamu melakukan langkah kritis:

  1. ADF Test: Dilakukan untuk memastikan data sudah stasioner (stabil secara rata-rata dan varians).
  2. Data Splitting: Membagi data menjadi 80% Train (untuk belajar) dan 20% Test (untuk ujian akurasi). Ini adalah standar emas untuk memastikan model kita tidak hanya menghafal data lama (overfitting).

D. Evaluasi Kinerja: Sang Juara Baru (SARIMAX)

Berdasarkan tabel perbandingan kinerja (Gambar 12), kita bisa melihat hasil yang sangat kontras:

  • SARIMAX adalah Model Terbaik: Model ini memiliki nilai RMSE (2310.57) dan MAPE (0.0574) terendah dibanding model lain seperti Naive, SMA, atau ARIMA standar.
  • Akurasi Tinggi: Nilai MAPE sebesar 5.7% menunjukkan bahwa rata-rata kesalahan prediksi model kamu hanya sekitar 5-6% dari nilai aslinya. Dalam dunia bisnis, tingkat kesalahan di bawah 10% sudah dianggap sangat akurat dan bisa diandalkan untuk pengambilan keputusan.

E. Interpretasi Hasil dan Ketidakpastian

Jika kita melihat visualisasi SARIMAX, garis pink (Forecast) mengikuti alur data aktual dengan sangat baik. Namun, ada satu hal yang harus diwaspadai secara kritis:

  • Penurunan Tajam di Akhir 2023: Data aktual (Test) menunjukkan penurunan profit yang sangat drastis di akhir periode. Meskipun model SARIMAX mencoba mengikuti tren tersebut, terdapat gap (Residual) yang cukup besar pada titik tersebut.
  • Sumber Ketidakpastian: Penurunan tajam tersebut mungkin disebabkan oleh faktor eksternal yang tidak ada dalam data (misalnya: perubahan algoritma marketplace, munculnya kompetitor baru, atau gangguan logistik). Pita pink muda (95% Confidence Interval) menunjukkan area ketidakpastian; jika data asli masih berada di dalam pita tersebut, maka model kita masih dianggap valid.

Implikasi Bisnis

Secara keseluruhan, model SARIMAX kamu membuktikan bahwa profit e-commerce ini sangat dipengaruhi oleh kombinasi siklus waktu dan aktivitas pemasaran. Manajemen tidak boleh hanya mengandalkan tren alami, tetapi harus tetap memantau variabel eksogen (iklan/trafik) karena variabel tersebut terbukti memperbaiki akurasi prediksi profit secara signifikan.

Insights, Conclusions, & Recomendations

1. Sintesis Hasil Analisis (Integrasi EDA, Hubungan, dan Model)

Berdasarkan rangkaian analisis data yang komprehensif, laporan ini mengintegrasikan temuan dari aspek temporal, perilaku segmen, dan efisiensi pemasaran melalui model SARIMAX sebagai kerangka kerja utama.

  • Sinergi Temporal dan Eksogen: Analisis Regresi mengonfirmasi bahwa Marketing Spend adalah prediktor signifikan terhadap Sales. Model SARIMAX kemudian mengintegrasikan variabel ini sebagai faktor eksogen, membuktikan bahwa fluktuasi profitabilitas tidak hanya dipengaruhi oleh tren musiman (EDA), tetapi juga secara langsung oleh intensitas biaya pemasaran.
  • Validasi Efisiensi melalui Klastering: Melalui integrasi hasil klastering, ditemukan bahwa Klaster 2 (Efficiency Outliers) merupakan validasi empiris atas efektivitas model regresi. Klaster ini menunjukkan bahwa profitabilitas maksimal dapat dicapai melalui optimasi kanal, bukan sekadar peningkatan volume anggaran.
  • Diagnosa Multikolinearitas: Pengujian Variance Inflation Factor (VIF) mengungkapkan adanya redundansi antara trafik dan biaya iklan, mengindikasikan bahwa pertumbuhan saat ini masih bersifat “anorganik” dan rentan terhadap kenaikan biaya akuisisi.

2. Insight Utama dan Temuan Signifikan

Analisis ini mengidentifikasi dua pola kritis yang menjadi penentu kesehatan bisnis di masa depan:

  • Disparitas Estimasi vs Realitas: Terdapat anomali pada akhir periode 2023 di mana profit aktual turun tajam di bawah batas bawah Confidence Interval model SARIMAX. Hal ini menunjukkan adanya faktor eksternal atau perubahan perilaku pasar yang tidak tertangkap oleh data historis pemasaran saja.
  • Eskalasi Risiko Churn pada Segmen Sensitif: Hasil klasifikasi menunjukkan bahwa segmen Low memiliki elastisitas yang sangat tinggi terhadap trafik web. Penurunan profit yang terdeteksi merupakan sinyal awal churn masif pada segmen ini, yang jika tidak dimitigasi, akan menggerus basis pelanggan jangka panjang secara signifikan.

3. Kesimpulan Berbasis Data

Secara fundamental, kondisi bisnis berada pada fase “Stabil namun Tergantung” (Stable but Dependent).

  • Stabilitas Laba: Ditopang kuat oleh segmen High dan Medium yang memiliki loyalitas tinggi dan perilaku pembelian yang konsisten.
  • Kerentanan Operasional: Bisnis memiliki ketergantungan kritis terhadap paid marketing. Rasio ketergantungan ini menciptakan risiko margin yang menipis jika biaya perolehan pelanggan (Customer Acquisition Cost) di pasar meningkat.
  • Akurasi Model: Model SARIMAX yang dikembangkan memiliki tingkat akurasi yang tinggi, namun anomali akhir tahun menunjukkan perlunya integrasi variabel makro atau sentimen pasar di masa mendatang.

4. Rekomendasi Strategis (Actionable & Relevant)

Strategi perusahaan ke depan harus berfokus pada transisi dari pertumbuhan berbasis biaya (cost-driven growth) menuju pertumbuhan berbasis efisiensi (efficiency-driven growth). Berikut adalah tiga pilar rekomendasi utama:

  1. Optimalisasi Struktur Biaya Pemasaran melalui Realkoasi Klaster. Perusahaan disarankan untuk segera melakukan audit terhadap kampanye yang masuk dalam kategori Klaster 1 (biaya tinggi dengan hasil moderat). Mengingat temuan VIF yang menunjukkan ketergantungan pada iklan berbayar, perusahaan perlu melakukan pemangkasan anggaran sebesar 15-20% pada kanal tersebut. Dana hasil penghematan ini harus dialokasikan kembali untuk memperkuat infrastruktur trafik organik dan program loyalitas berbasis rujukan (referral), guna menekan biaya perolehan pelanggan (CAC) di masa depan.
  2. Transformasi Manajemen Retensi melalui Sistem Peringatan Dini. Menanggapi risiko churn pada segmen Low yang terdeteksi melalui model klasifikasi, perusahaan perlu mengintegrasikan skor prediksi dari model Random Forest ke dalam operasional CRM harian. Alih-alih memberikan promo massal yang tidak efisien, sistem ini harus mampu memberikan “bendera merah” secara otomatis pada pelanggan dengan penurunan skor keterlibatan (engagement score). Intervensi proaktif berupa kupon personalisasi harus diberikan tepat sebelum pelanggan mencapai titik churn, yang secara teoretis jauh lebih murah dibandingkan biaya mencari pelanggan baru.
  3. Penyelarasan Target Operasional dengan Estimasi Probabilistik. Untuk memitigasi anomali penurunan profit seperti yang terjadi pada akhir tahun 2023, penetapan KPI bulanan tidak boleh lagi didasarkan pada target linear yang agresif. Manajemen disarankan menggunakan estimasi pita kepercayaan (Confidence Interval) dari model SARIMAX sebagai basis perencanaan. Pendekatan ini memungkinkan perusahaan untuk memiliki proyeksi yang lebih konservatif dan realistis pada periode musiman yang sulit, sekaligus memastikan ketersediaan cadangan likuiditas untuk menghadapi fluktuasi pasar yang tidak terduga.