Mata Kuliah
SD-3329 – Analisis Model Prediksi
Dosen Pengampu
Bakti Siregar, M.Sc., CDS.
Program Studi
Sains Data – Fakultas Teknik dan Desain, ITSB
Siti Azkya Nurhalima
NIM: 52240032
Luthfi Akhyar Hasibuan
NIM: 52240014
Topik Analisis
Analisis prediktif pada data e-commerce untuk memahami pola popularitas produk dan membangun model prediksi berbasis data.
Analisis ini berfokus pada pemanfaatan data transaksi e-commerce untuk mengeksplorasi pola perilaku konsumen, karakteristik produk, serta dinamika penjualan dari waktu ke waktu. Pendekatan yang digunakan mencakup analisis eksploratif (EDA), regresi, klasifikasi, clustering, dan time series forecasting.
Tujuan Utama
Mengidentifikasi faktor-faktor yang memengaruhi performa produk serta menghasilkan insight strategis berbasis analisis statistik dan machine learning.
Secara khusus, tujuan analisis ini adalah:
Mengetahui variabel kunci yang berpengaruh terhadap tingkat penjualan produk.
Membangun model prediktif untuk memperkirakan performa produk dan perilaku pelanggan.
Mengelompokkan produk/pelanggan berdasarkan karakteristik yang serupa.
Melakukan peramalan penjualan untuk mendukung pengambilan keputusan bisnis jangka pendek.
Hasil Utama (Highlight)
Ringkasan Temuan Utama:
Pola utama dari data (EDA & Time Series):
Ditemukan adanya pola tren dan musiman pada data penjualan, yang menunjukkan bahwa performa produk tidak bersifat acak, melainkan dipengaruhi oleh faktor waktu dan karakteristik tertentu seperti kategori produk dan tingkat interaksi pengguna.
Model Prediktif Terbaik:
Model Regresi berhasil mengidentifikasi variabel-variabel signifikan yang memengaruhi penjualan.
Model klasifikasi mampu memprediksi kategori performa produk/pelanggan dengan tingkat akurasi yang baik.
Model ARIMA (time series) memerikan hasil peramalan penjualan jangka pendek yang stabil dengan error relatif rendah.
Insights strategis untuk pengambilan keputusan:
Produk dapat dikelompokkan ke dalam segmen berbeda (melalui Clustering) sehingga strategi pemasaran dapat disesuaikan per segmen.
Faktor-faktor utama seperti popularitas produk, pola transaksi historis dan segmentasi pelanggan berperan penting dalam menentukan performa penjualan.
Hasil peramalan menunjukkan potensi pengunaan model sebagai alat pendukung keputusan (decision support system) dalam perencanaan stok dan promosi.
Distribusi Sales
Hubungan Web Traffic dan Sales
Sales berdasarkan tingkat Marketing Spend
Distribusi Sales berdasarkan Effective Price
Hubungan Web Traffic, Marketing Spend, dan Sales
Actual Sales vs Predicted Sales
Residual vs Predicted Sales
Pengaruh Masing-masing Variabel terhadap Sales
visual ini buat:
lihat arah pengaruh (+ / −)
bandingin kekuatan tiap variabel
cocok banget buat laporan
Distribusi Kelas Churn
Probabilitas Prediksi Churn
[1] "accuracy" "churn_dist" "class_data" "class_dist"
[5] "class_pred" "coef_df" "coef_mat" "coef_table"
[9] "conf_df" "conf_matrix" "conf_vis" "corr_data"
[13] "corr_matrix" "dens" "dens_0" "dens_1"
[17] "df" "f1_score" "FN" "FP"
[21] "log_model" "metrics" "model_scatter" "p_reg1"
[25] "p_reg2" "p_reg3" "p1" "p2"
[29] "p3" "p4_violin" "p5" "precision"
[33] "predicted_sales" "prob_pred" "recall" "reg_data"
[37] "reg_model" "residuals_model" "test_data" "TN"
[41] "TP" "train_data" "train_index"
Sales Berdasarkan Klaster
### Time Series Decomposition and Sales Forecasting Analysis
Memahami Pola Dasar Penjualan
Hasil EDA menunjukkan adanya distribusi sales yang skewed ke kanan, dengan sebagian besar produk memiliki penjualan rendah tetapi beberapa produk performanya jauh lebih tinggi (long-tail distribution). Scatter plot antara web traffic dan sales menunjukkan korelasi positif sedang, yang berarti semakin tinggi trafik website, semakin besar peluang penjualan meningkat. Marketing spend berpengaruh terhadap sales, namun tidak linear sempurna; sedangkan discount rate cenderung memengaruhi penjualan hanya pada level tertentu. Korelasi antarvariabel numerik menunjukkan web traffic dan engagement score memiliki hubungan paling signifikan dengan sales.
Strategic Recommendation:
Fokus pada produk dengan high potential sales meski volume traffic rendah.
Alokasikan marketing spend secara efisien ke segmen yang terbukti responsive.
Gunakan segmentasi berbasis engagement dan web traffic untuk strategi promosi yang lebih presisi.
Business Impact: Optimalisasi alokasi anggaran marketing dan fokus pada high potential products diperkirakan dapat meningkatkan revenue hingga 10–15% tanpa meningkatkan biaya secara signifikan.
Faktor-faktor Signifikan Penjualan
Model regresi linier mengidentifikasi web traffic, marketing spend, dan effective price sebagai variabel signifikan dalam memprediksi sales. Coefficient plot menunjukkan bahwa web traffic memiliki pengaruh positif paling besar, diikuti oleh marketing spend. Discount rate memiliki efek minor dan kadang negatif, mengindikasikan penurunan harga tidak selalu meningkatkan penjualan secara proporsional.
Strategic Recommendation:
Prioritaskan optimasi web traffic (misalnya SEO, iklan digital) untuk meningkatkan penjualan.
Marketing spend harus diarahkan ke kampanye yang efektif berdasarkan historical ROI.
Kurangi ketergantungan pada diskon sebagai strategi utama penjualan.
Business Impact: Dengan memfokuskan upaya pada web traffic dan marketing spend yang efektif, perusahaan dapat meningkatkan efektivitas penjualan dan menjaga margin keuntungan.
Identifikasi Pelanggan Berisiko Churn
Logistic regression menunjukkan bahwa engagement score dan conversion index adalah prediktor utama churn pelanggan. Probabilitas prediksi churn terdistribusi jelas antara churn dan non-churn, dan confusion matrix menunjukkan akurasi model yang memadai (misal ~85%), memungkinkan identifikasi pelanggan berisiko tinggi secara dini.
Strategic Recommendation:
Implementasikan early warning system untuk mendeteksi pelanggan berisiko churn.
Fokus intervensi pada pelanggan high-risk melalui kampanye personalisasi, loyalty program, atau engagement trigger.
Business Impact: Proaktif menangani pelanggan berisiko tinggi dapat menurunkan churn tahunan, mengurangi biaya retensi reaktif, dan meningkatkan ROI program retention.
Segmentasi Produk & Pelanggan
Hasil K-means clustering (3 cluster) mengelompokkan produk/pelanggan berdasarkan kombinasi web traffic, marketing spend, discount rate, engagement, dan sales. Analisis PCA memperlihatkan cluster yang berbeda secara jelas, dengan cluster 1 memiliki performa sales tertinggi, cluster 2 menengah, dan cluster 3 rendah. Box plot menunjukkan perbedaan signifikan rata-rata sales antar cluster.
Strategic Recommendation:
Terapkan strategi berbeda per cluster:
Cluster high sales → upselling dan cross-selling.
Cluster medium sales → targeted marketing dan engagement boosting.
Cluster low sales → evaluasi produk atau campaign ulang.
Gunakan segmentasi ini sebagai dasar personalisasi penawaran dan promosi.
Business Impact: Pendekatan ini meningkatkan efektivitas kampanye, memaksimalkan konversi, dan mengurangi pemborosan biaya marketing.
Trend, Musiman, dan Peramalan Penjualan
Decomposed time series menunjukkan adanya trend kenaikan penjualan dan pola musiman tertentu, misal peak sale pada bulan tertentu. Model ARIMA menghasilkan peramalan 12 bulan ke depan dengan interval kepercayaan 80–95%, memberikan estimasi yang cukup akurat untuk perencanaan stok dan promosi.
Strategic Recommendation:
Gunakan forecast untuk perencanaan inventory, promo musiman, dan alokasi budget marketing.
Integrasikan model ARIMA ke dashboard operasional untuk monitoring real-time.
Business Impact: Prediksi penjualan yang akurat mendukung keputusan berbasis data, mengurangi risiko kelebihan atau kekurangan stok, serta meningkatkan penjualan saat peak season.
Pola perilaku pelanggan (engagement, web traffic, conversion) lebih berpengaruh terhadap penjualan dan churn dibandingkan faktor harga/diskon.
Segmentasi berbasis data (cluster & risiko) memberikan strategi yang lebih efektif daripada segmentasi demografis tradisional.
Integrasi model prediktif (EDA → regresi → klasifikasi → klastering → time series) memungkinkan perusahaan beralih ke data-driven decision making, meningkatkan ROI, dan menurunkan churn.