Pendahuluan

Dalam dunia bisnis, terutama di bidang pemasaran, penting untuk memahami hubungan antara berbagai faktor yang dapat memengaruhi hasil penjualan. Salah satu aspek yang sering dianalisis adalah pengaruh perubahan pada strategi pemasaran terhadap kinerja penjualan. Mengingat bahwa pemasaran (X) dapat mencakup berbagai tindakan seperti perubahan anggaran promosi, peningkatan saluran distribusi, atau kampanye iklan, sementara penjualan (Y) mencerminkan hasil akhir dari aktivitas pemasaran tersebut, maka memahami sejauh mana keduanya saling berhubungan menjadi krusial. Salah satu metode statistik yang dapat digunakan untuk mengukur hubungan ini adalah uji korelasi Spearman, yang dapat membantu mengidentifikasi apakah perubahan dalam pemasaran secara signifikan berkaitan dengan perubahan dalam penjualan. Uji Spearman khususnya berguna ketika data yang digunakan bersifat ordinal atau tidak terdistribusi normal, serta mampu mengukur hubungan monotonic antara dua variabel. Dengan menggunakan uji ini, perusahaan dapat mengevaluasi seberapa efektif upaya pemasaran yang dilakukan dalam memengaruhi peningkatan atau penurunan penjualan, yang pada gilirannya dapat menjadi dasar bagi pengambilan keputusan strategis yang lebih tepat.

Misalkan terdapat \(n\) pasangan data: \(\{(X_1, Y_1), (X_2, Y_2), \dots, (X_n, Y_n)\}\). Kemudian dibentuk dua himpunan peringkat sebagai berikut:
\(\{R(X_1), R(X_2), \dots, R(X_n)\}\) dan \(\{R(Y_1), R(Y_2), \dots, R(Y_n)\}\)
dengan
\(\{R(X_i)\): rank Xi di antara observasi X1,X2,…,Xn
\(\{R(Y_i)\): rank Yi di antara observasi Y1,Y2,…,Yn
Untuk n pasang observasi \(\{(X_1, Y_1), (X_2, Y_2), \dots, (X_n, Y_n)\}\) koefisien korelasi rank Spearman adalah \[\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}\] \[dimana\] \[d_i = R(X_i) - R(Y_i)\]

Deskripsi Data

Dataset Coffee Chain yang digunakan dalam analisis ini berisi informasi penjualan dari sebuah jaringan kedai kopi pada tahun 2012. Data ini mencakup berbagai variabel yang merepresentasikan aspek keuangan dan operasional dari unit bisnis kedai kopi di berbagai lokasi. Dalam analisis ini, fokus utama diarahkan pada dua variabel numerik berikut:
\(X\):(Sales)
\(Y\):(Marketing)

# Memuat package yang diperlukan
library(car)
library(MASS)
library(lmtest)
library(dplyr)
library(fit.models)
library(readxl)
library(ggplot2)
data_coffee <- read_excel("Documents/DATA KAEL.xlsx")
data.frame(data_coffee)
##      X   Y
## 1   24 219
## 2   27 190
## 3   26 234
## 4   14 100
## 5   15 134
## 6   23 180
## 7   47 341
## 8   57 150
## 9   19 140
## 10  22 130
## 11  19 140
## 12  47 345
## 13  30 234
## 14  77 546
## 15  63 456
## 16  24 219
## 17  27 190
## 18  26 234
## 19  15 134
## 20  23 180
## 21   5  45
## 22   8  62
## 23   7  54
## 24   4  43
## 25   4  43
## 26  77 546
## 27  30 234
## 28  63 456
## 29  93 546
## 30  32 190
## 31  24 170
## 32  12  76
## 33  14 123
## 34  12 114
## 35  34  90
## 36  27  99
## 37  11  82
## 38  11  65
## 39  19 140
## 40  18 140
## 41  57 150
## 42  26 200
## 43  22 130
## 44  47 341
## 45   8  80
## 46   8  80
## 47  27 210
## 48  20 120
## 49  72 190
## 50  25 180
## 51  68 180
## 52  15 110
## 53  21 150
## 54  20 180
## 55   9  81
## 56  19 150
## 57  14 123
## 58  10  94
## 59  18 130
## 60  68 180
## 61  40 310
## 62  32 190
## 63  24 170
## 64   8  80
## 65   9  81
## 66  25 180
## 67  72 190
## 68  26 200
## 69  27 210
## 70  15 110
## 71  20 120
## 72  21 150
## 73   8  80
## 74   8  80
## 75  47 341
## 76  57 126
## 77  23 494
## 78  22 130
## 79   5  45
## 80   4  43
## 81  11  65
## 82  34  90
## 83  12  93
## 84  15 120
## 85  12  76
## 86  26 234
## 87  24 219
## 88  15 134
## 89  63 490
## 90  95  61
## 91  94 678
## 92  93 483
## 93  64 180
## 94  20 180
## 95  19 150
## 96  16 112
## 97  32 190
## 98  68 180
## 99   9  85
## 100  9  81
## 101 34  90
## 102 11  82
## 103  5  45
## 104  8  62
## 105 11  65
## 106 15 120
## 107 27  99
## 108  8  80
## 109 27 210
## 110 20 120
## 111 72 190
## 112 26 200
## 113 14 100
## 114  8  80
## 115 24 219
## 116 15 134
## 117 19 140
## 118 18 140
## 119 23 180
## 120 64 452
## 121 27 190
## 122 12 114
## 123 16 112
## 124 14 123
## 125 12  93
## 126 15 120
## 127 27  99
## 128 34  90
## 129 11  82
## 130 11  65
## 131 24 170
## 132 18 130
## 133 32 190
## 134 63 456
## 135 95 250
## 136 77 546
## 137 26 234
## 138 64 452
## 139 27 190
## 140 24 219
## 141 15 134
## 142 23 180
## 143 30 145
## 144 94 678
## 145 47 118
## 146  4  43
## 147  5  45
## 148  4  43
## 149  8  62
## 150 95 250
## 151 47 345
## 152 30 234
## 153 77 546
## 154 63 456
## 155 93  17
## 156 12  76
## 157 22 130
## 158 19 140
## 159 47 341
## 160 18 140
## 161 10  90
## 162 14 100
## 163  8  80
## 164 27 210
## 165 26 200
## 166 57 150
## 167 22 160
## 168 15 110
## 169 20 120
## 170 21 150
## 171 72 190
## 172 40 310
## 173  9  85
## 174 20 180
## 175 19 150
## 176 68 180
## 177 16 130
## 178 27 243
## 179 27 190
## 180 26 232
## 181 14 100
## 182 21 189
## 183 24 189
## 184 47 340
## 185 49 129
## 186 19 140
## 187 22 132
## 188 19 136
## 189 48 354
## 190 33 254
## 191 77 545
## 192 63 457
## 193 27 243
## 194 27 190
## 195 26 232
## 196 21 189
## 197 24 189
## 198  5  45
## 199  8  63
## 200  7  54

Statistik Deskriptif

# statistik deskriptif untuk semua variabel
summary(data_coffee)
##        X               Y        
##  Min.   : 4.00   Min.   : 17.0  
##  1st Qu.:14.00   1st Qu.: 99.0  
##  Median :23.00   Median :147.5  
##  Mean   :29.42   Mean   :181.9  
##  3rd Qu.:33.25   3rd Qu.:210.0  
##  Max.   :95.00   Max.   :678.0

Berdasarkan hasil statistik deskriptif dari data data_coffee, variabel X memiliki nilai minimum sebesar 4, nilai maksimum sebesar 95, dan rata-rata sebesar 29,42. Nilai median dari variabel X adalah 23, dengan kuartil pertama (Q1) sebesar 14 dan kuartil ketiga (Q3) sebesar 33,25. Ini menunjukkan bahwa sebagian besar nilai X berada dalam rentang tersebut, dengan sedikit data ekstrem di sisi atas.

Sementara itu, variabel Y memiliki nilai minimum sebesar 17 dan nilai maksimum yang jauh lebih tinggi, yaitu 678. Rata-rata dari variabel Y adalah 181,9, dan median sebesar 147,5. Kuartil pertama (Q1) dari Y adalah 99 dan kuartil ketiga (Q3) sebesar 210, yang menunjukkan bahwa 50% data Y berada dalam rentang 99 hingga 210. Selisih yang cukup besar antara nilai maksimum dan kuartil ketiga pada variabel Y mengindikasikan adanya kemungkinan outlier atau penyebaran data yang tidak merata. Secara keseluruhan, variabel Y tampak memiliki sebaran data yang lebih lebar dibandingkan dengan variabel X.

Model

# Membangun Persamaan Model
model <- lm(Y~X,data=data_coffee)
model
## 
## Call:
## lm(formula = Y ~ X, data = data_coffee)
## 
## Coefficients:
## (Intercept)            X  
##      64.656        3.987

Uji Asumsi

Uji Normalitas

  1. Hipotesis
    \(H_0\) = Residu berdistribusi normal
    \(H_1\) = Residu tidak berdistribusi normal
  2. Tingkat Signifikansi : \(\alpha = 0,05\)
  3. Daerah Kritis : \(H_0\) ditolak apabila nilai p-value < \(0,05\)
  4. Statistik uji:
# Grafik QQ Plot untuk normalitas residual
qqnorm(resid(model))
qqline(resid(model))

# Uji Normalitas Residu
shapiro.test(resid(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(model)
## W = 0.90793, p-value = 8.292e-10
  1. Kesimpulan

    Karena melalui plot normal Q-Q terlihat titik-titik tidak menyebar di sekitar grafik normal dan penyebarannya mengikuti garis diagonal, serta nilai p-value = 8.292e-10 < \(\alpha=0,05\), maka \(H_0\) ditolak sehingga residu tidak berdistribusi normal.

Scatter Plot

plot(data_coffee$X, data_coffee$Y)

Berdasarkan scatter plot yang ditampilkan, terlihat bahwa terdapat hubungan positif antara variabel \(X\) dan \(Y\). Secara umum, semakin tinggi nilai X, maka nilai Y juga cenderung meningkat, yang mengindikasikan adanya korelasi positif antara kedua variabel tersebut. Namun, pola ini tidak sepenuhnya konsisten, terutama pada nilai X yang lebih tinggi, di mana penyebaran nilai Y menjadi lebih bervariasi. Hal ini menunjukkan adanya gejala heteroskedastisitas, yaitu ketidakkonsistenan varians dari nilai Y terhadap X. Selain itu, terdapat beberapa titik data yang menyimpang jauh dari pola umum, yang kemungkinan merupakan outlier. Titik-titik ini, seperti yang berada pada nilai X tinggi tetapi Y sangat rendah atau sangat tinggi, berpotensi memengaruhi hasil analisis jika tidak ditangani dengan tepat. Secara keseluruhan, scatter plot ini memberikan indikasi awal bahwa hubungan antara kedua variabel mungkin tidak sepenuhnya linear dan perlu dilakukan analisis lebih lanjut, seperti regresi dan uji asumsi, untuk memahami karakteristik hubungan tersebut secara lebih mendalam.

Box Plot

boxplot(data_coffee[, c("X", "Y")],
        main = "Boxplot Variabel X dan Y",
        names = c("X", "Y"),
        col = c("darkgrey", "darkgrey"))

Boxplot menunjukkan perbedaan sebaran antara kedua variabel. Variabel X memiliki nilai yang relatif rendah dan tersebar rapat, dengan nilai tengah (median) yang juga rendah. Rentang interkuartil (IQR) pada variabel X sempit, yang menandakan bahwa sebagian besar data X terkonsentrasi dalam rentang yang kecil. Namun demikian, terdapat beberapa outlier yang terletak di atas batas atas, menunjukkan adanya nilai-nilai yang secara signifikan lebih tinggi dari mayoritas data.<>

Sementara itu, variabel Y menunjukkan sebaran yang jauh lebih lebar dibandingkan dengan variabel X. Median Y berada di tengah-tengah boxplot, namun rentang IQR cukup besar, mengindikasikan variasi data yang tinggi. Selain itu, terdapat cukup banyak outlier di atas batas maksimum, termasuk beberapa nilai yang sangat tinggi (lebih dari 600), yang menunjukkan adanya data ekstrem pada variabel Y.<>

Secara keseluruhan, boxplot ini menunjukkan bahwa variabel Y memiliki keragaman data yang jauh lebih besar dibandingkan dengan variabel X, baik dari segi sebaran maupun keberadaan outlier. Hal ini penting untuk diperhatikan dalam analisis lanjutan, seperti regresi atau uji statistik, karena perbedaan skala dan sebaran ini dapat memengaruhi hasil analisis.<>

Uji Spearman

  1. Hipotesis
    \(H_0\) = Variabel X dan Y independen
    \(H_1\) = Variabel X dan Y tidak independen 
  2. Tingkat Signifikansi : \(\alpha = 0,05\)
  3. Daerah Kritis : \(H_0\) ditolak apabila nilai p-value < \(0,05\)
  4. Statistik uji:
cor.test(data_coffee$X, data_coffee$Y, method = "spearman")
## Warning in cor.test.default(data_coffee$X, data_coffee$Y, method = "spearman"):
## Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  data_coffee$X and data_coffee$Y
## S = 281063, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.7891974
  1. Kesimpulan

    Karena p-value (<2.2e-16) < \(\alpha=0,05\), maka \(H_0\) ditolak sehingga variabel X dan Y tidak independen.

Kesimpulan

Berdasarkan hasil analisis data dari dataset Coffee Chain tahun 2012, dapat disimpulkan bahwa terdapat hubungan yang signifikan antara variabel pemasaran (\(X\)) dan penjualan (\(Y\)). Hasil uji korelasi Spearman menunjukkan nilai koefisien korelasi sebesar \(\rho = 0,865\) dengan p-value \(< 2.2e-16\), yang berarti bahwa hubungan antara kedua variabel sangat kuat dan signifikan secara statistik. Dengan demikian, hipotesis nol (\(H_0\)) yang menyatakan bahwa variabel \(X\) dan \(Y\) independen ditolak. Artinya, peningkatan aktivitas pemasaran berkorelasi positif dengan peningkatan hasil penjualan.

Analisis deskriptif menunjukkan bahwa variabel pemasaran (\(X\)) memiliki sebaran data yang lebih luas dan mengandung lebih banyak outlier dibandingkan dengan variabel penjualan (\(Y\)). Hal ini tercermin dari hasil boxplot dan statistik ringkasan yang menunjukkan bahwa nilai maksimum pemasaran jauh lebih tinggi dan distribusinya lebih menyebar. Plot pencar (scatter plot ) juga memperlihatkan pola hubungan yang positif antara pemasaran dan penjualan, meskipun terdapat indikasi heteroskedastisitas dan keberadaan outlier yang perlu diperhatikan dalam analisis lanjutan.

Model regresi linear sederhana menghasilkan persamaan: \[ Y = -17,455 + 0,3796X \] yang mengindikasikan bahwa setiap peningkatan satu satuan dalam pemasaran diharapkan akan meningkatkan penjualan sebesar 0,3796 satuan. Namun demikian, uji normalitas menunjukkan bahwa residu dari model tidak berdistribusi normal, yang dapat memengaruhi validitas model regresi tersebut.

Secara keseluruhan, hasil penelitian ini menegaskan pentingnya peran aktivitas pemasaran dalam mendorong kinerja penjualan. Dengan bukti kuat adanya hubungan yang signifikan antara kedua variabel, perusahaan dapat menggunakan informasi ini sebagai dasar dalam menyusun strategi pemasaran yang lebih efektif untuk meningkatkan pendapatan. Akan tetapi, mengingat adanya pelanggaran asumsi normalitas dan indikasi outlier, analisis lanjutan seperti regresi robust atau transformasi data mungkin diperlukan untuk menghasilkan model yang lebih akurat.

Daftar Pustaka

Handajani, Sri Sulistijowati.,dkk.2021.METODE STATISTIKA dengan R. Surakarta UNS.
Ghozali, I. (2018). Aplikasi Analisis Multivariate dengan Program IBM SPSS 25. Semarang: Badan Penerbit Universitas Diponegoro.