NIM: 52240001
Detail
Time Series & Classification
NIM: 52240010
Detail
Regression & Clustering
E-Commerce Business Intelligence Dalam lingkup operasional e-commerce
Dataset ini berfungsi sebagai instrumen Health Check Dashboard yang merekam performa harian secara komprehensif. Tujuan strategis dari analisis ini adalah mengoptimalkan alokasi anggaran pemasaran guna memaksimalkan pendapatan (Sales) dan profitabilitas, sekaligus memitigasi risiko retensi pelanggan (Churn).
Variabel target utama difokuskan pada Sales sebagai indikator volume arus kas masuk dan Profit sebagai indikator efisiensi margin bersih.
Analisis Prediktif E-Commerce: Regresi Linear Berganda & Regresi Logistik
1. Regresi Linear Berganda : Estimasi Prediktif Angka Sales
Analisis regresi linear berganda ini bertujuan untuk membangun model estimasi prediktif penjualan yang mampu menjelaskan bagaimana keputusan operasional perusahaan berdampak langsung terhadap capaian Sales. Fokus utama diarahkan pada variabel yang bersifat actionable, yaitu variabel yang dapat dikendalikan secara langsung oleh manajemen dalam konteks strategi pemasaran dan harga.
Variabel independen utama meliputi marketing spend, web traffic, discount rate, dan average price, yang secara konseptual merepresentasikan tiga tuas bisnis utama:
Dengan kerangka ini, model tidak hanya digunakan sebagai alat prediksi kuantitatif, tetapi juga sebagai instrumen impact analysis untuk mengevaluasi efektivitas strategi bisnis dan potensi return on investment (ROI) dari setiap intervensi manajerial.
Regresi linear dipilih sebagai baseline model dengan dua pertimbangan bisnis utama. Pertama, eksplorasi awal data menunjukkan adanya kecenderungan hubungan linear antara aktivitas pemasaran dan peningkatan penjualan, sehingga pendekatan linear dinilai memadai untuk menggambarkan dinamika dasar bisnis. Kedua, regresi linear menawarkan tingkat interpretabilitas yang tinggi, di mana setiap koefisien dapat diterjemahkan secara langsung menjadi implikasi manajerial, seperti estimasi perubahan penjualan akibat peningkatan anggaran pemasaran.
Pada tahap preprocessing, data dibersihkan dari nilai hilang untuk menjaga kestabilan estimasi parameter. Dataset kemudian dibagi menjadi 80% data latih (training) dan 20% data uji (testing). Pembagian ini bertujuan untuk memastikan bahwa model tidak hanya mampu menyesuaikan diri terhadap data historis, tetapi juga memiliki kemampuan generalisasi terhadap kondisi bisnis baru.
Analisis diagnostik awal menunjukkan adanya korelasi kuat antara web traffic dan marketing spend. Secara bisnis, hubungan ini bersifat logis karena peningkatan anggaran pemasaran cenderung mendorong kenaikan jumlah kunjungan. Oleh karena itu, kedua variabel tetap dipertahankan dalam model dengan catatan interpretasi koefisien dilakukan secara hati-hati.
Evaluasi model dilakukan melalui tiga tahapan utama dalam kerangka Modeling Regresi Berbasis Dampak Bisnis.
Visualisasi Predicted vs Actual menunjukkan bahwa sebagian besar titik observasi berada dekat dengan garis identitas, khususnya pada rentang penjualan rendah hingga menengah. Hal ini menandakan bahwa model memiliki daya prediksi yang kuat untuk kondisi operasional normal, seperti aktivitas penjualan harian tanpa kampanye besar.
Namun, pada nilai penjualan tinggi, model menunjukkan kecenderungan under-prediction, termasuk satu observasi ekstrem di mana penjualan aktual sekitar 11.000 hanya diprediksi sekitar 4.000. Dari sudut pandang bisnis, anomali ini mengindikasikan adanya event khusus yang tidak sepenuhnya tercermin dalam variabel kuantitatif model.
Analisis feature importance digunakan untuk mengidentifikasi penggerak utama penjualan. Hasil menunjukkan bahwa:
Temuan ini memiliki implikasi bisnis yang jelas: strategi peningkatan traffic memberikan dampak yang lebih signifikan terhadap penjualan dibandingkan intervensi harga jangka pendek. Dengan demikian, alokasi anggaran pemasaran yang berorientasi pada akuisisi pengguna berpotensi menghasilkan ROI yang lebih tinggi.
Kinerja prediktif model dievaluasi menggunakan Root Mean Square Error (RMSE) sebesar 345,94. Nilai ini merepresentasikan rata-rata deviasi antara penjualan aktual dan prediksi model.
Dalam konteks bisnis, RMSE berfungsi sebagai batas toleransi risiko dalam penggunaan hasil prediksi. Selama keputusan manajerial diambil dalam rentang deviasi tersebut, model dinilai cukup reliabel untuk mendukung perencanaan operasional dan evaluasi strategi pemasaran.
Hasil uji asumsi klasik menunjukkan beberapa pelanggaran struktural:
Implikasinya, model regresi linear ini lebih tepat digunakan sebagai alat estimasi tren dan prediksi operasional, bukan sebagai instrumen inferensi statistik yang kaku.
Secara keseluruhan, regresi linear berganda terbukti stabil, interpretable, dan relevan secara bisnis. Model ini sangat cocok digunakan sebagai baseline decision-support system untuk:
Strategi bisnis yang paling direkomendasikan berdasarkan hasil ini adalah fokus pada peningkatan web traffic sebagai pengungkit utama pertumbuhan penjualan.
2. Regresi Logistik : Klasifikasi High vs Low Sales (Risk Identification)
Berbeda dengan regresi linear yang berfokus pada nilai numerik penjualan, regresi logistik digunakan untuk mengklasifikasikan transaksi ke dalam kategori High Sales dan Low Sales. Pendekatan ini bertujuan membantu manajemen mengidentifikasi transaksi berpotensi tinggi secara cepat sebagai dasar prioritisasi strategi.
Nilai AIC sebesar 1091,57 digunakan sebagai indikator kecocokan model. Namun, hasil evaluasi confusion matrix menunjukkan bahwa performa klasifikasi masih sangat rendah dengan akurasi hanya 6,52%.
Model menghasilkan kesalahan klasifikasi yang besar, khususnya Type II Error, di mana transaksi dengan penjualan tinggi justru diprediksi sebagai rendah. Dari perspektif bisnis, kondisi ini berisiko karena perusahaan dapat gagal mengenali peluang transaksi bernilai tinggi.
Rendahnya performa model logistik menunjukkan bahwa konfigurasi saat ini belum layak digunakan sebagai alat pengambilan keputusan. Permasalahan utama kemungkinan disebabkan oleh class imbalance dan ambang probabilitas yang belum optimal.
Oleh karena itu, regresi logistik pada tahap ini lebih berfungsi sebagai alat eksplorasi risiko, bukan sebagai sistem klasifikasi final. Pengembangan lanjutan diperlukan sebelum model dapat diintegrasikan ke dalam proses bisnis.
3. Kritik Model, Keterbatasan, dan Implikasi Bisnis
Meskipun model regresi linear dan logistik yang dibangun telah memberikan insight kuantitatif yang bernilai bagi pengambilan keputusan bisnis, terdapat sejumlah keterbatasan struktural yang perlu dicermati secara kritis agar hasil analisis tidak disalahartikan dalam konteks operasional.
Model regresi linear menunjukkan performa prediktif yang kuat pada rentang penjualan rendah hingga menengah, sebagaimana tercermin dari visualisasi Predicted vs Actual yang memperlihatkan konsentrasi titik observasi di sekitar garis identitas. Kondisi ini mengindikasikan bahwa model sangat andal untuk mendukung perencanaan operasional rutin, seperti estimasi penjualan harian dan evaluasi kinerja kampanye reguler.
Namun, pada nilai penjualan tinggi, model cenderung melakukan under-prediction yang signifikan. Fenomena ini mencerminkan keterbatasan inheren pendekatan linear dalam menangkap lonjakan penjualan yang bersifat diskrit dan non-kontinu, seperti flash sale, kampanye promosi besar, atau event musiman berskala nasional. Dengan kata lain, model belum sepenuhnya mampu merepresentasikan dinamika bisnis pada kondisi ekstrem.
Selain itu, hasil uji asumsi klasik menunjukkan adanya multikolinearitas yang sangat tinggi (Mean VIF > 50), serta pelanggaran asumsi normalitas dan homoskedastisitas. Dari sudut pandang statistik inferensial, kondisi ini membatasi penggunaan model untuk pengujian signifikansi parameter secara kaku. Namun, dalam konteks bisnis, korelasi tinggi antar variabel utama justru mencerminkan hubungan kausal yang logis, seperti keterkaitan erat antara anggaran pemasaran dan peningkatan traffic.
Model regresi logistik yang digunakan untuk mengklasifikasikan High Sales dan Low Sales menunjukkan performa yang belum memadai, dengan tingkat akurasi yang sangat rendah. Analisis confusion matrix mengungkap bahwa model sering gagal mengidentifikasi transaksi bernilai tinggi, yang tercermin dari tingginya Type II Error.
Dari perspektif bisnis, kesalahan ini bersifat kritis karena berpotensi menyebabkan perusahaan kehilangan peluang pendapatan, akibat kegagalan dalam mengenali transaksi dengan potensi penjualan besar. Rendahnya performa ini kemungkinan dipengaruhi oleh ketidakseimbangan kelas (class imbalance) serta pemilihan ambang batas probabilitas (classification threshold) yang belum optimal.
Berdasarkan temuan di atas, model regresi linear tetap layak digunakan sebagai baseline model untuk mendukung perencanaan bisnis, khususnya dalam kondisi operasional normal. Fokus strategis yang paling direkomendasikan adalah peningkatan web traffic sebagai penggerak utama pertumbuhan penjualan, dengan dukungan alokasi anggaran pemasaran yang terukur.
Namun, untuk meningkatkan keandalan analisis pada kondisi ekstrem dan kebutuhan klasifikasi risiko, pengembangan lanjutan sangat disarankan, antara lain melalui:
Dengan demikian, model yang dibangun tidak hanya berfungsi sebagai alat prediksi, tetapi juga sebagai instrumen strategis yang membantu manajemen memahami batasan risiko, peluang pertumbuhan, serta arah pengembangan analitik yang lebih matang di masa depan.
Latar Belakang Masalah dan Karakteristik Data
Analisis ini bertujuan untuk mengidentifikasi perilaku customer churn, yaitu kondisi ketika pelanggan berhenti menggunakan layanan. Variabel target churn bersifat biner dengan distribusi:
Distribusi tersebut menunjukkan adanya class imbalance yang cukup signifikan. Dalam kondisi ini, metrik Accuracy menjadi kurang representatif karena cenderung bias terhadap kelas mayoritas. Oleh karena itu, evaluasi model difokuskan pada Recall, Precision, F1-Score, dan ROC-AUC, yang lebih relevan untuk menilai kemampuan model dalam mendeteksi pelanggan berisiko churn.
A. Justifikasi Pemilihan Metode: Random Forest
Model utama yang digunakan dalam analisis ini adalah Random Forest, dengan beberapa pertimbangan utama:
Kemampuan menangkap hubungan non-linear dan interaksi kompleks antar variabel tanpa asumsi distribusi tertentu, yang relevan dengan perilaku pelanggan yang tidak selalu linier.
Stabilitas dan robustness yang lebih baik dibandingkan model boosting seperti XGBoost pada dataset berukuran menengah, khususnya dalam konteks data dengan potensi noise.
Interpretabilitas melalui Feature Importance, yang menjadi nilai tambah penting dalam konteks bisnis karena memungkinkan identifikasi faktor utama pendorong churn secara langsung.
Sebagai pembanding akademik, XGBoost dan Logistic Regression juga dibangun. Meskipun XGBoost menunjukkan performa yang sangat tinggi, Random Forest dipilih sebagai model utama karena memberikan keseimbangan terbaik antara performansi, stabilitas, dan interpretabilitas, yang lebih sesuai untuk analisis keputusan bisnis dibandingkan optimasi prediksi semata.
B. Preprocessing dan Strategi Anti-Data Leakage
Untuk menjaga validitas inferensi dan integritas model, dilakukan tahapan preprocessing sebagai berikut:
1. Penanganan Data Leakage
Variabel sales, profit, dan
conversion_index secara sengaja dikeluarkan dari prediktor.
Variabel-variabel ini berpotensi memiliki korelasi post-event (informasi
yang muncul setelah churn terjadi), yang secara artifisial dapat
meningkatkan performa model di fase training namun gagal saat
diimplementasikan di dunia nyata.
2. Imputasi dan Encoding
3. Data Splitting
Dataset dibagi menjadi:
Pembagian dilakukan dengan stratified sampling, guna mempertahankan proporsi kelas churn pada kedua subset dan menghindari bias distribusi.
C. Evaluasi Performa Model Klasifikasi
Hasil Perbandingan Model
| Model | Recall | Precision | F1-Score | ROC-AUC |
|---|---|---|---|---|
| Random Forest (rf) | 1.000 | 0.998 | 0.999 | 1.000 |
| XGBoost (xgb) | 1.000 | 1.000 | 1.000 | 1.000 |
| Logistic Regression (logreg) | 0.992 | 0.998 | 0.995 | 1.000 |
Secara statistik, seluruh model menunjukkan performa yang sangat tinggi. Namun, Random Forest dipilih sebagai model utama karena mampu mencapai performa yang hampir setara dengan XGBoost, dengan risiko overfitting yang lebih rendah dan tingkat interpretabilitas yang lebih baik.
Nilai Recall ≈ 1.000 menunjukkan bahwa model hampir tidak melewatkan pelanggan yang benar-benar akan churn, yang sangat krusial karena kesalahan False Negative memiliki dampak bisnis paling besar dalam strategi retensi pelanggan.
D. Evaluasi Diagnostik Bertahap (Diagnostic Modeling Framework)
Untuk memperkuat interpretasi performa model, evaluasi dilakukan secara bertahap sebagai berikut:
Tahap awal evaluasi difokuskan pada interpretabilitas model melalui Feature Importance untuk memastikan bahwa pola yang dipelajari model masuk akal secara bisnis. Langkah ini berfungsi sebagai sanity check agar model tidak bergantung pada fitur yang bersifat spurious atau berpotensi menyebabkan data leakage.
Hasil menunjukkan bahwa churn_numeric muncul sebagai prediktor dengan skor kepentingan paling tinggi secara absolut. Kondisi ini perlu diwaspadai karena apabila variabel tersebut merupakan turunan langsung dari target churn, maka hal ini mengindikasikan potensi data leakage yang dapat menyebabkan performa model menjadi terlalu optimistis.
Di luar variabel tersebut, customer_segment_Low dan web_traffic menjadi kontributor utama keputusan model. Temuan ini konsisten dengan logika bisnis, di mana pelanggan pada segmen bawah cenderung memiliki loyalitas yang lebih rendah, sementara penurunan trafik individu mencerminkan melemahnya engagement pelanggan.
Sebaliknya, variabel seperti region_West, region_East, dan operational_cost memiliki kontribusi yang sangat kecil, mengindikasikan bahwa faktor geografis dan biaya operasional tidak berperan signifikan dalam memprediksi churn pada dataset ini.
Pada tahap ini, evaluasi difokuskan pada kemampuan diskriminasi model dalam membedakan pelanggan churn dan non-churn. Kurva ROC digunakan untuk mengukur trade-off antara True Positive Rate dan False Positive Rate pada berbagai ambang probabilitas.
Meskipun nilai ROC–AUC yang tinggi menunjukkan daya beda yang kuat, interpretasi dilakukan secara hati-hati karena nilai yang mendekati sempurna berpotensi mengindikasikan overfitting. Risiko ini diminimalkan dengan melakukan evaluasi pada data uji serta penerapan preprocessing anti data leakage, sehingga hasil ROC diinterpretasikan sebagai indikasi kemampuan diskriminasi yang baik, namun tetap memerlukan validasi lanjutan.
Gain Chart digunakan untuk mengevaluasi nilai ekonomis model dalam konteks implementasi bisnis. Hasil menunjukkan kurva yang sangat curam, di mana model mampu mengidentifikasi hampir seluruh pelanggan churn hanya dengan menargetkan kurang dari 20% populasi pelanggan dengan skor risiko tertinggi.
Implikasinya, tim retensi tidak perlu mengalokasikan sumber daya ke seluruh basis pelanggan. Fokus pada segmen kecil dengan risiko tertinggi sudah cukup untuk mencapai efektivitas maksimal, sehingga strategi retensi dapat dijalankan secara lebih efisien dan hemat biaya.
Confusion Matrix dianalisis untuk mengaudit distribusi kesalahan prediksi. Fokus utama adalah memastikan model tidak bias ke arah False Negative, yaitu kegagalan mendeteksi pelanggan yang sebenarnya akan churn. Hasil menunjukkan bahwa kesalahan jenis ini sangat minim, sehingga model aman digunakan dari perspektif risiko bisnis.
Ringkasan Evaluasi Diagnostik
Secara keseluruhan, model menunjukkan performa diagnostik yang sangat kuat, baik dari sisi logika pengambilan keputusan, daya diskriminasi, efisiensi operasional, maupun mitigasi risiko bisnis. Namun, temuan dominasi variabel churn_numeric menegaskan pentingnya pengecekan ulang fitur untuk memastikan bahwa performa tinggi ini tetap konsisten dan dapat digeneralisasi pada data di masa depan.
E. Interpretasi Feature Importance
Analisis Feature Importance dari model Random Forest menunjukkan bahwa faktor paling dominan dalam memprediksi churn adalah:
customer_segment_Low Mengonfirmasi hasil EDA sebelumnya bahwa pelanggan pada segmen bawah memiliki kecenderungan churn paling tinggi.
web_traffic Penurunan trafik individual menjadi sinyal awal hilangnya engagement, yang secara konsisten berkontribusi terhadap peningkatan risiko churn.
Temuan ini memperkuat validitas model karena tidak hanya kuat secara statistik, tetapi juga selaras dengan logika bisnis dan perilaku pelanggan secara umum.
F. Keterbatasan dan Peluang Pengembangan
Meskipun model menunjukkan performa yang sangat kuat pada seluruh tahapan evaluasi diagnostik, hasil yang mendekati sempurna juga menimbulkan indikasi “too good to be true”. Hal ini mengisyaratkan potensi keterbatasan generalisasi, baik akibat kompleksitas data yang rendah maupun kemungkinan overfitting pada pola tertentu.
Berdasarkan temuan tersebut, beberapa arah pengembangan yang direkomendasikan adalah:
Validasi Stabilitas Model Melakukan cross-validation tambahan untuk memastikan bahwa performa tinggi tidak hanya bergantung pada satu skema pembagian data.
Monitoring Pasca-Implementasi Memantau performa model secara berkala pada data baru untuk mendeteksi degradasi akurasi atau perubahan pola perilaku pelanggan.
Pengayaan Fitur Perilaku Mengintegrasikan data tambahan seperti sentimen interaksi layanan pelanggan atau histori komplain guna memperkaya konteks perilaku churn dan meningkatkan daya prediksi pada kondisi yang lebih dinamis.
Secara keseluruhan, model telah menunjukkan fondasi yang kuat untuk digunakan sebagai alat pendukung keputusan retensi pelanggan, dengan catatan bahwa pengujian lanjutan dan pengayaan data tetap diperlukan untuk menjaga keberlanjutan performa di dunia nyata.
Pelanggan Berbasis Gaussian Mixture Model
Analisis klastering dilakukan untuk membedah heterogenitas perilaku pelanggan pasca pemodelan regresi. Tujuan utama pendekatan ini adalah mengelompokkan observasi ke dalam segmen yang memiliki kemiripan karakteristik internal (intra-cluster homogeneity), namun berbeda secara signifikan antar kelompok (inter-cluster heterogeneity). Dengan demikian, strategi pemasaran yang dihasilkan tidak bersifat generalis (one-size-fits-all), melainkan berbasis segmentasi yang lebih presisi.
A. Kerangka Kerja dan Seleksi Variabel
Analisis difokuskan pada Customer & Performance Profiling guna mengidentifikasi hubungan struktural antara investasi pemasaran dan output penjualan. Empat variabel utama dipilih untuk merepresentasikan dimensi finansial dan perilaku pelanggan:
1. Metrik Finansial
sales sebagai indikator kinerja penjualan.marketing_spend sebagai proksi alokasi biaya
pemasaran.2. Metrik Perilaku
engagement_score sebagai ukuran intensitas interaksi
pelanggan.conversion_index sebagai indikator efektivitas konversi
pra-transaksi.Kombinasi variabel ini memungkinkan pembentukan representasi multidimensi yang tidak hanya menangkap nilai transaksi, tetapi juga kualitas respons pelanggan terhadap intervensi pemasaran.
B. Preprocessing Data: Transformasi Z-score
Untuk menghindari distorsi akibat perbedaan skala antar variabel, seluruh fitur ditransformasikan menggunakan standardisasi Z-score.
Secara matematis, transformasi ini menghasilkan distribusi dengan rata-rata (\(\mu\)) = 0 dan standar deviasi (\(\sigma\)) = 1.
Justifikasi Akademik: Tanpa standarisasi, variabel
dengan magnitudo besar seperti sales dan
marketing_spend akan mendominasi perhitungan jarak dalam
algoritma klastering, sehingga struktur klaster yang terbentuk
berpotensi mencerminkan skala numerik, bukan pola perilaku yang
sebenarnya.
C. Justifikasi Model: Gaussian Mixture Model (GMM)
Pemilihan Gaussian Mixture Model (GMM) didasarkan pada fleksibilitas model dalam merepresentasikan struktur data pelanggan yang kompleks.
Berbeda dengan metode konvensional seperti K-Means yang mengasumsikan klaster berbentuk sferis dan menerapkan hard clustering, GMM menggunakan pendekatan soft clustering berbasis probabilitas.
Keunggulan utama GMM:
Pendekatan ini memungkinkan interpretasi segmentasi yang lebih realistis dibandingkan pembagian klaster yang bersifat deterministik.
D. Proses Pemodelan dan Diagnostik Klaster
Scatter plot digunakan sebagai tahap awal untuk mengevaluasi hasil klastering GMM dengan mengamati pola distribusi, tingkat overlap, dan separasi antar klaster berdasarkan variabel utama. Visualisasi ini membantu memastikan bahwa struktur klaster yang terbentuk bersifat logis secara empiris sebelum dilakukan analisis multidimensi dan diagnostik lanjutan.
Setelah model GMM terbentuk, pusat klaster diekstraksi untuk merepresentasikan karakteristik rata-rata setiap segmen. Radar chart digunakan untuk memvisualisasikan behavioral DNA tiap klaster, sehingga data numerik dapat diterjemahkan menjadi persona pelanggan yang lebih operasional secara strategis.
Hasil radar analysis menunjukkan bahwa Klaster 2 memiliki profil paling dominan, khususnya pada dimensi Sales dan Marketing, yang mengindikasikan kelompok pelanggan bernilai tinggi (high-value segment). Klaster 1 menunjukkan pola yang lebih terfokus pada efisiensi, sedangkan Klaster 3 memiliki karakteristik yang relatif seimbang di seluruh dimensi perilaku.
Visualisasi ini memungkinkan penerjemahan hasil klastering ke dalam persona pelanggan yang lebih operasional dan relevan untuk strategi bisnis.
Sebagai keunggulan utama GMM, tingkat keyakinan model dalam mengklasifikasikan setiap pelanggan dihitung melalui probabilitas posterior.
Hasil bubble plot menunjukkan bahwa Klaster 2 memiliki tingkat kepercayaan tertinggi, tercermin dari ukuran bubble yang kecil dan konsisten, sehingga segmen ini dapat dianggap paling stabil. Sebaliknya, Klaster 1 memiliki variasi probabilitas yang lebih besar, yang menandakan adanya pelanggan pada zona transisi antar klaster.
Temuan ini memperkuat bahwa struktur segmentasi bersifat probabilistik dan tidak kaku, sekaligus memberikan insight penting mengenai pelanggan yang berpotensi berpindah segmen.
Sebagai audit akhir, kualitas klaster dievaluasi menggunakan Silhouette Score untuk mengukur keseimbangan antara kohesi internal dan separasi antar klaster.
Mayoritas observasi pada Klaster 1 dan Klaster 3 memiliki nilai Silhouette positif, menandakan bahwa pelanggan telah terkelompok secara tepat. Namun, terdapat beberapa observasi dengan nilai negatif—terutama pada Klaster 2—yang mengindikasikan adanya pelanggan transisional atau anomali.
Alih-alih dianggap sebagai kelemahan, temuan ini justru memberikan nilai strategis karena pelanggan tersebut dapat menjadi target pendekatan pemasaran yang lebih personal dan adaptif.
E. Taksonomi dan Karakteristik Klaster
Berdasarkan pemetaan hubungan Sales vs Marketing Spend, teridentifikasi tiga tipologi utama pelanggan:
Klaster 1 : The High Spenders (Inefisiensi Anggaran)
Segmen dengan pengeluaran pemasaran tinggi (4.000–6.000) namun hanya menghasilkan penjualan pada tingkat menengah dengan volatilitas tinggi. Temuan ini mengindikasikan adanya disonansi antara biaya iklan dan respons pasar, sehingga segmen ini memerlukan audit strategi kampanye secara menyeluruh.
Klaster 2 : The Efficiency Outliers (High ROI Segment)
Segmen dengan performa superior yang menghasilkan nilai penjualan tertinggi (9.000+) pada tingkat pengeluaran pemasaran moderat. Klaster ini mencerminkan loyalitas pelanggan yang kuat atau efektivitas kampanye yang optimal, sehingga dapat dijadikan benchmark strategi pemasaran.
Klaster 3 : The Budget Conscious (Potensi Laten)
Segmen dengan pengeluaran rendah namun menunjukkan stabilitas output penjualan. Kelompok ini merepresentasikan pelanggan organik atau pasar yang belum dioptimalkan (under-served market), dengan potensi pertumbuhan apabila diberikan stimulus promosi yang terarah.
F. Implikasi Strategis dan Rekomendasi Manajerial
Berdasarkan struktur klaster yang terbentuk, diperoleh beberapa rekomendasi strategis:
engagement_score sebagai variabel pemicu kampanye promosi
pada segmen yang menunjukkan responsivitas tinggi.G. Keterbatasan dan Proyeksi Riset Lanjutan
Keterbatasan: Analisis klastering ini dilakukan pada subset data sebanyak 800 observasi. Meskipun ukuran tersebut cukup representatif untuk mengidentifikasi pola umum, terdapat kemungkinan bahwa perilaku ekstrem atau segmen minor pada populasi yang lebih besar belum sepenuhnya terakomodasi dalam model.
Pengembangan Riset: Sebagai pengembangan, penelitian lanjutan disarankan untuk menerapkan Time-Series Clustering guna memodelkan dinamika migrasi pelanggan antar klaster secara temporal, misalnya transisi dari Klaster 3 menuju Klaster 2. Pendekatan ini akan memperkaya analisis dari perspektif statis menjadi longitudinal, sehingga perusahaan dapat memahami siklus hidup pelanggan dan merancang intervensi strategis yang lebih proaktif dan berkelanjutan.
Analisis Kinerja Profit dan Peramalan Menggunakan SARIMAX
Analisis ini bertujuan untuk mengevaluasi kinerja profit historis sekaligus membangun model peramalan yang akurat dengan mempertimbangkan dinamika waktu dan faktor eksternal. Dengan memahami pola temporal profit, manajemen dapat melakukan perencanaan stok yang lebih presisi, pengaturan anggaran promosi yang efisien, serta antisipasi risiko bisnis secara lebih dini.
Pendekatan yang digunakan berada dalam kerangka Stochastic Time Series Modeling, khususnya model SARIMAX, yang memungkinkan integrasi antara pola historis dan variabel eksogen yang relevan dengan konteks e-commerce.
A. Struktur Dataset dan Identifikasi Komponen Time Series
Dataset profit dicatat secara bulanan dari tahun 2013 hingga awal 2024, sehingga sangat cocok dianalisis menggunakan pendekatan deret waktu jangka panjang. Berdasarkan hasil dekomposisi awal, data profit dapat diuraikan ke dalam tiga komponen utama:
Tren (Trend) Profit menunjukkan kecenderungan meningkat secara konsisten dari waktu ke waktu, yang mengindikasikan pertumbuhan bisnis jangka panjang. Meskipun demikian, terdapat fluktuasi jangka pendek yang mencerminkan dinamika pasar.
Musiman (Seasonality) Pola musiman muncul secara berulang setiap tahun, menandakan adanya periode-periode dengan performa profit tinggi (misalnya akhir tahun, hari raya, atau periode promosi besar). Hal ini mengonfirmasi bahwa profit tidak bersifat acak, melainkan mengikuti siklus tahunan yang jelas.
Residual (Noise) Komponen residual merepresentasikan variasi acak yang tidak dijelaskan oleh tren maupun musim. Walaupun bersifat acak, residual tetap penting untuk dianalisis guna mendeteksi anomali atau kejadian luar biasa.
B. Justifikasi Metodologis: SARIMAX
Pemilihan SARIMAX (Seasonal ARIMA with eXogenous variables) didasarkan pada pertimbangan teoritis dan empiris yang kuat, khususnya untuk konteks e-commerce.
Kemampuan Menangkap Musiman Komponen Seasonal memungkinkan model secara eksplisit mempelajari pola tahunan yang telah teridentifikasi pada tahap dekomposisi.
Pendekatan Stochastic Modeling SARIMAX memodelkan data sebagai proses stokastik, sehingga mampu menangkap ketergantungan probabilistik antar waktu, bukan sekadar pola deterministik.
Integrasi Variabel Eksogen (X) Keunggulan utama SARIMAX dibanding ARIMA standar adalah kemampuannya memasukkan variabel eksternal seperti marketing spend dan web traffic. Hal ini sangat realistis, karena profit e-commerce tidak hanya dipengaruhi oleh waktu, tetapi juga oleh intensitas aktivitas pemasaran dan interaksi pengguna.
Dengan demikian, SARIMAX dipilih bukan hanya karena kompleksitasnya, tetapi karena kesesuaiannya dengan mekanisme bisnis yang sebenarnya.
C. Preprocessing dan Uji Stasioneritas
Sebelum pemodelan dilakukan, beberapa langkah krusial diterapkan untuk memastikan validitas statistik model:
Uji Stasioneritas (ADF Test) Augmented Dickey-Fuller Test digunakan untuk memastikan bahwa deret waktu telah stasioner (stabil secara mean dan varians). Stasioneritas merupakan prasyarat utama dalam model ARIMA-family agar estimasi parameter tidak bias.
Data Splitting (Train–Test Split) Data dibagi menjadi 80% data latih (train) dan 20% data uji (test). Strategi ini bertujuan untuk menguji kemampuan generalisasi model terhadap data yang belum pernah dilihat, sekaligus meminimalkan risiko overfitting.
D. Diagnostic Checking: Validasi Model Stokastik
Setelah model SARIMAX diestimasi, dilakukan diagnostic checking untuk memastikan bahwa model telah menyerap seluruh informasi struktural dalam data.
Evaluasi dilakukan melalui visualisasi residual terhadap waktu untuk menguji apakah residual berperilaku sebagai white noise.
Hasil analisis menunjukkan bahwa residual berfluktuasi secara acak di sekitar garis nol tanpa adanya pola tren yang konsisten maupun indikasi musiman berulang. Hal ini mengindikasikan bahwa komponen tren dan musiman telah berhasil dimodelkan oleh struktur SARIMAX.
Meskipun terdapat beberapa fluktuasi tajam pada periode tertentu, varians residual secara keseluruhan tetap stabil. Kondisi ini menandakan bahwa model memiliki stabilitas yang baik dalam menghadapi volatilitas data dan lulus uji stasioneritas residual.
Independensi error diuji menggunakan fungsi autokorelasi (ACF) residual untuk mendeteksi adanya keterkaitan antar error pada berbagai lag waktu.
Grafik ACF menunjukkan bahwa hampir seluruh spike berada di dalam batas signifikansi, kecuali pada lag 0 yang secara definisi bernilai 1. Tidak ditemukannya autokorelasi signifikan pada lag-lag awal mengindikasikan bahwa kesalahan prediksi pada satu periode tidak dipengaruhi oleh kesalahan pada periode sebelumnya.
Temuan ini membuktikan bahwa residual bersifat independen dan bebas dari bias sistemik, sehingga memperkuat kesimpulan bahwa model SARIMAX telah mengekstraksi informasi struktural data secara optimal dan layak digunakan sebagai model stokastik untuk keperluan peramalan.
E. Evaluasi Kinerja Model: SARIMAX sebagai Model Terbaik
Evaluasi kinerja model dilakukan untuk menilai sejauh mana SARIMAX mampu menghasilkan prediksi profit yang akurat dan stabil dibandingkan metode peramalan lainnya. Penilaian dilakukan menggunakan beberapa metrik error guna memperoleh gambaran performa yang komprehensif.
Berdasarkan hasil perbandingan performa model (Gambar 12), SARIMAX menunjukkan kinerja paling unggul dibandingkan metode baseline seperti Naive, Simple Moving Average (SMA), dan ARIMA standar.
Hasil Evaluasi Akurasi
Model SARIMAX menghasilkan nilai error sebagai berikut:
Interpretasi Metrik
Penggunaan lebih dari satu metrik memberikan evaluasi yang lebih objektif dan seimbang:
MAE mencerminkan deviasi absolut rata-rata antara nilai prediksi dan aktual, yang menunjukkan bahwa kesalahan prediksi berada pada tingkat yang masih dapat diterima secara operasional.
RMSE memberikan penalti lebih besar terhadap kesalahan ekstrem, sehingga sensitif terhadap lonjakan error pada periode tertentu.
MAPE menyajikan kesalahan dalam bentuk persentase, yang memudahkan pemangku kepentingan dalam memahami tingkat risiko bisnis secara intuitif.
Nilai MAPE sebesar 5–6% mengindikasikan bahwa secara rata-rata kesalahan prediksi SARIMAX berada jauh di bawah ambang batas 10%, yang dalam konteks bisnis umumnya sudah dikategorikan sangat akurat dan layak digunakan sebagai dasar pengambilan keputusan strategis.
Dengan demikian, hasil evaluasi ini mengonfirmasi bahwa integrasi pola waktu (tren dan musiman) serta variabel eksogen dalam kerangka SARIMAX secara signifikan meningkatkan akurasi peramalan profit.
F. Interpretasi Hasil Peramalan dan Ketidakpastian Model
Visualisasi hasil peramalan SARIMAX memberikan insight penting mengenai dinamika profit ke depan serta tingkat ketidakpastian prediksi.
Pada periode uji, garis prediksi SARIMAX mampu mengikuti fluktuasi data aktual dengan sangat rapat. Kedekatan antara nilai prediksi dan aktual menunjukkan bahwa model berhasil menangkap dinamika jangka pendek maupun pola musiman yang mendasari pergerakan profit. Temuan ini konsisten dengan nilai error yang rendah pada tahap evaluasi kinerja (MAE, RMSE, dan MAPE), sehingga memperkuat keandalan model secara empiris.
Hasil peramalan menunjukkan bahwa profit diproyeksikan relatif stabil pada kisaran 35.000–40.000 pada awal periode proyeksi. Namun, model mengindikasikan adanya potensi penurunan tajam menjelang akhir horizon peramalan (tahun 2024). Sinyal ini menjadi peringatan dini bagi manajemen untuk melakukan antisipasi strategis, seperti penyesuaian anggaran pemasaran atau optimalisasi stok.
Area bayangan di sekitar garis prediksi merepresentasikan 95% Confidence Interval. Rentang interval yang relatif sempit pada sebagian besar periode menunjukkan tingkat kepastian prediksi yang tinggi. Namun, pelebaran interval dan proyeksi spike negatif di akhir 2023 mengindikasikan meningkatnya ketidakpastian, yang kemungkinan dipicu oleh faktor eksternal di luar variabel eksogen model.
Selama nilai aktual masih berada dalam rentang interval kepercayaan, model tetap dianggap valid secara statistik. Oleh karena itu, hasil forecast sebaiknya digunakan sebagai baseline perencanaan, dengan tetap mempertimbangkan skenario risiko pada periode dengan ketidakpastian tinggi.
G. Kritik Model, Keterbatasan, Implikasi Bisnis, dan Peluang Pengembangan
Meskipun model SARIMAX menunjukkan kinerja peramalan yang sangat baik, beberapa aspek kritis tetap perlu diperhatikan untuk menjaga interpretasi hasil tetap proporsional.
Kritik dan Keterbatasan Model Analisis dilakukan pada data bulanan dengan asumsi bahwa hubungan antara profit dan variabel eksogen bersifat linier dan relatif stabil sepanjang waktu. Dalam praktiknya, dinamika e-commerce dapat dipengaruhi oleh faktor nonlinier seperti perubahan perilaku konsumen, kebijakan harga kompetitor, maupun kejadian eksternal yang bersifat shock (misalnya krisis ekonomi atau regulasi baru). Selain itu, horizon peramalan yang semakin panjang cenderung meningkatkan ketidakpastian, sebagaimana tercermin dari pelebaran interval kepercayaan di akhir periode forecast.
Implikasi Bisnis Hasil ini menegaskan bahwa peramalan profit yang akurat tidak cukup hanya berbasis tren historis. Integrasi variabel eksogen memungkinkan manajemen menggunakan SARIMAX sebagai early warning system untuk mendeteksi potensi penurunan kinerja. Dengan demikian, keputusan terkait alokasi anggaran promosi, perencanaan stok, dan penjadwalan kampanye dapat dilakukan secara lebih adaptif dan berbasis risiko.
Peluang Pengembangan Riset Penelitian lanjutan dapat mengembangkan pendekatan ini dengan menerapkan model nonlinier atau hybrid, seperti SARIMAX–Machine Learning, guna menangkap hubungan yang lebih kompleks. Selain itu, penggunaan data dengan frekuensi lebih tinggi (mingguan atau harian) serta penerapan rolling forecast atau time-varying parameter models berpotensi memberikan pemahaman yang lebih dinamis terhadap perubahan perilaku profit dari waktu ke waktu.
1. Sintesis Hasil Analisis (Integrasi EDA, Modeling, dan Segmentasi)
Berdasarkan keseluruhan tahapan analisis, dapat disimpulkan bahwa performa bisnis e-commerce dipengaruhi oleh interaksi kompleks antara faktor temporal, efisiensi pemasaran, dan heterogenitas perilaku pelanggan. Temuan dari setiap pendekatan analitik saling menguatkan dan membentuk satu kerangka pemahaman yang utuh.
Analisis EDA dan regresi mengonfirmasi bahwa Marketing Spend dan Web Traffic merupakan pendorong utama Sales, namun hubungan tersebut tidak bersifat linier sempurna. Gejala diminishing return serta temuan multikolinearitas (VIF tinggi) menunjukkan bahwa pertumbuhan penjualan saat ini masih sangat bergantung pada peningkatan biaya akuisisi.
Temuan ini kemudian divalidasi melalui*analisis klastering, di mana Klaster 2 (Efficiency Outliers) membuktikan bahwa profitabilitas tinggi dapat dicapai tanpa eskalasi anggaran yang agresif. Sebaliknya, Klaster 1 merepresentasikan inefisiensi struktural, sejalan dengan hasil regresi yang menunjukkan bias under-estimation pada nilai ekstrem.
Pada dimensi temporal, model SARIMAX berhasil mengintegrasikan pola musiman dan variabel eksogen, membuktikan bahwa fluktuasi profit tidak hanya ditentukan oleh siklus waktu, tetapi juga oleh intensitas aktivitas pemasaran. Anomali penurunan profit di akhir 2023 menjadi indikator bahwa terdapat faktor eksternal yang belum sepenuhnya tertangkap oleh variabel historis.
2. Insight Utama dan Temuan Signifikan
Dari integrasi seluruh hasil analisis, dua insight strategis utama dapat diidentifikasi:
Ketergantungan Tinggi terhadap Paid Marketing Kombinasi hasil regresi, VIF, dan SARIMAX menunjukkan bahwa stabilitas profit saat ini sangat bergantung pada biaya pemasaran. Kondisi ini menciptakan risiko margin apabila terjadi kenaikan biaya iklan atau penurunan efektivitas kanal berbayar.
Risiko Churn sebagai Early Warning Penurunan Profit Model klasifikasi mengungkap bahwa churn terkonsentrasi hampir sepenuhnya pada segmen pelanggan Low, dengan Web Traffic sebagai sinyal utama. Penurunan profit yang terdeteksi secara temporal dapat ditafsirkan sebagai gejala awal erosi basis pelanggan, bukan sekadar fluktuasi musiman.
3. Kesimpulan Berbasis Data
Secara keseluruhan, kondisi bisnis berada pada fase “Stabil namun Rentan”.
Dengan demikian, tantangan utama bisnis bukan pada peningkatan penjualan semata, melainkan pada transformasi kualitas pertumbuhan.
4. Rekomendasi Strategis (Actionable & Relevant)
Berdasarkan sintesis analitik di atas, perusahaan disarankan untuk menggeser fokus dari cost-driven growth menuju efficiency-driven growth melalui tiga pilar strategis berikut:
Rekonstruksi Alokasi Anggaran Berbasis Klaster Mengacu pada hasil klastering dan VIF, perusahaan perlu melakukan audit terhadap kampanye dalam Klaster 1 (biaya tinggi, hasil moderat). Pemangkasan anggaran sebesar ±15–20% pada kanal berperforma rendah direkomendasikan, dengan realokasi ke strategi yang menyerupai Klaster 2, khususnya optimalisasi kanal ber-ROI tinggi dan peningkatan engagement organik.
Integrasi Model Churn sebagai Sistem Peringatan Dini Skor prediksi churn dari model Random Forest perlu diintegrasikan ke dalam sistem CRM operasional. Fokus retensi sebaiknya diarahkan pada pelanggan segmen Low dengan penurunan traffic dan engagement, melalui intervensi personalisasi yang bersifat preventif, bukan reaktif. Pendekatan ini secara ekonomi lebih efisien dibandingkan akuisisi pelanggan baru.
Perencanaan Bisnis Berbasis Interval Probabilistik Untuk mengantisipasi shock seperti penurunan profit akhir 2023, target operasional tidak lagi ditetapkan secara deterministik. Manajemen disarankan menggunakan Confidence Interval dari SARIMAX sebagai dasar penetapan KPI, sehingga strategi bisnis lebih adaptif terhadap ketidakpastian dan risiko musiman.