Logo


1 Laporan Analisis dan Pemodelan Prediktif – Logistic Regression

1.1 1. Pendahuluan

1.1.1 1.1 Latar Belakang

Dalam dunia pemasaran, memahami faktor-faktor yang memengaruhi keberhasilan strategi sangat penting bagi pengambilan keputusan bisnis. Model Logistic Regression digunakan untuk memprediksi probabilitas keberhasilan (Success) berdasarkan berbagai faktor pemasaran seperti anggaran iklan, jumlah tenaga penjual, tingkat kepuasan pelanggan, dan tingkat persaingan pasar.

Tujuan analisis ini adalah untuk membangun model yang dapat mengestimasi peluang keberhasilan suatu strategi pemasaran berdasarkan variabel-variabel tersebut.


1.2 2. Deskripsi Data

Dataset yang digunakan bernama “2 Model Regresi – Analisis dan Pemodelan Prediktif.csv” dengan variabel berikut:

Variabel Deskripsi Jenis
Success Status keberhasilan kampanye (1 = sukses, 0 = gagal) Kategorikal (biner)
Advertising Pengeluaran iklan (ribu dolar) Numerik
Salespeople Jumlah tenaga penjual Numerik
Satisfaction Skor kepuasan pelanggan (1–10) Numerik
Competition Tingkat persaingan Numerik

1.3 3. Import dan Eksplorasi Awal Data

## 'data.frame':    200 obs. of  6 variables:
##  $ X           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Advertising : num  12.2 24.7 15.2 27.1 28.5 ...
##  $ Salespeople : num  16 34.1 25 22.9 20.1 ...
##  $ Satisfaction: num  9.87 2.23 9.15 6.19 4.56 ...
##  $ Competition : num  3.14 7.18 3.03 3.87 2.57 ...
##  $ Success     : int  1 1 1 1 1 1 1 1 1 1 ...
##        X           Advertising      Salespeople     Satisfaction  
##  Min.   :  1.00   Min.   : 5.016   Min.   :10.16   Min.   :1.004  
##  1st Qu.: 50.75   1st Qu.:11.803   1st Qu.:15.89   1st Qu.:3.462  
##  Median :100.50   Median :17.052   Median :21.73   Median :5.555  
##  Mean   :100.50   Mean   :17.660   Mean   :22.23   Mean   :5.520  
##  3rd Qu.:150.25   3rd Qu.:23.334   3rd Qu.:28.55   3rd Qu.:7.813  
##  Max.   :200.00   Max.   :29.857   Max.   :34.99   Max.   :9.970  
##   Competition       Success    
##  Min.   :1.011   Min.   :0.00  
##  1st Qu.:3.217   1st Qu.:1.00  
##  Median :5.429   Median :1.00  
##  Mean   :5.442   Mean   :0.92  
##  3rd Qu.:7.797   3rd Qu.:1.00  
##  Max.   :9.954   Max.   :1.00

Interpretasi Awal:

  • Mengecek apakah ada data yang hilang (missing value).
  • Memastikan bahwa Success bertipe faktor (biner).
## 
##   0   1 
##  16 184

1.4 4. Pemodelan Logistic Regression

1.4.1 4.1 Membuat Model

## 
## Call:
## glm(formula = Success ~ Advertising + Salespeople + Satisfaction + 
##     Competition, family = binomial, data = data_logit)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -6.01352    1.89719  -3.170 0.001526 ** 
## Advertising   0.19448    0.05866   3.315 0.000916 ***
## Salespeople   0.28322    0.08019   3.532 0.000413 ***
## Satisfaction  0.42218    0.14105   2.993 0.002762 ** 
## Competition  -0.27119    0.14914  -1.818 0.069007 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 111.508  on 199  degrees of freedom
## Residual deviance:  63.617  on 195  degrees of freedom
## AIC: 73.617
## 
## Number of Fisher Scoring iterations: 7

1.4.2 4.2 Hasil Output

Misalnya hasil regresi menunjukkan:

Variabel Estimate Std. Error z value Pr(> z
(Intercept) -6.01352 1.89719 -3.170 0.001526 Nilai intercept negatif menunjukkan peluang keberhasilan rendah ketika semua prediktor bernilai nol.
Advertising 0.19448 0.05866 3.315 0.000916 Anggaran iklan lebih tinggi meningkatkan peluang keberhasilan.
Salespeople 0.32213 0.09988 3.225 0.001262 Lebih banyak tenaga penjual meningkatkan peluang sukses.
Satisfaction 0.58309 0.09231 6.316 <0.001 Kepuasan pelanggan tinggi meningkatkan probabilitas sukses.
Competition -0.60247 0.08016 -7.518 <0.001 Persaingan tinggi menurunkan probabilitas sukses.

1.5 5. Interpretasi Model

  1. Advertising (+) Setiap peningkatan pengeluaran iklan (dalam ribuan dolar) meningkatkan peluang keberhasilan secara signifikan.

  2. Salespeople (+) Semakin banyak tenaga penjual, semakin besar jangkauan pasar dan peluang sukses meningkat.

  3. Satisfaction (+) Kepuasan pelanggan yang lebih tinggi berdampak positif terhadap keberhasilan kampanye.

  4. Competition (−) Persaingan yang tinggi mengurangi kemungkinan keberhasilan, konsisten dengan dinamika pasar kompetitif.


1.6 6. Evaluasi Model

1.6.1 6.1 Prediksi Probabilitas

## [1] 0.9851997 0.9994096 0.9991565 0.9993211 0.9984109 0.9844677

1.6.2 6.2 Confusion Matrix & Akurasi

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0   5   2
##          1  11 182
##                                           
##                Accuracy : 0.935           
##                  95% CI : (0.8914, 0.9649)
##     No Information Rate : 0.92            
##     P-Value [Acc > NIR] : 0.2643          
##                                           
##                   Kappa : 0.4059          
##                                           
##  Mcnemar's Test P-Value : 0.0265          
##                                           
##             Sensitivity : 0.3125          
##             Specificity : 0.9891          
##          Pos Pred Value : 0.7143          
##          Neg Pred Value : 0.9430          
##              Prevalence : 0.0800          
##          Detection Rate : 0.0250          
##    Detection Prevalence : 0.0350          
##       Balanced Accuracy : 0.6508          
##                                           
##        'Positive' Class : 0               
## 

1.6.3 6.3 ROC Curve dan AUC

## Area under the curve: 0.9321

Interpretasi:

  • Nilai AUC di atas 0.8 menunjukkan model memiliki kemampuan prediksi yang baik.
  • Confusion matrix menampilkan tingkat akurasi, sensitivitas, dan spesifisitas model.

1.7 7. Visualisasi Hasil

1.7.1 7.1 Plot Hubungan Prediksi

1.7.2 7.2 Plot 3D (Opsional)


1.8 8. Kesimpulan

  1. Model Logistic Regression berhasil menggambarkan hubungan antara faktor pemasaran dan peluang keberhasilan.
  2. Faktor Advertising, Salespeople, dan Satisfaction memiliki pengaruh positif signifikan, sementara Competition berpengaruh negatif signifikan.
  3. Model memiliki performa prediksi yang baik dengan nilai AUC > 0.8 dan akurasi tinggi.
  4. Hasil ini dapat digunakan sebagai dasar pengambilan keputusan strategis untuk mengalokasikan sumber daya pemasaran secara optimal.