1 Pendahuluan

Dalam era persaingan bisnis yang semakin kompetitif, kemampuan untuk mengelola dan menganalisis data menjadi aspek penting dalam mendukung pengambilan keputusan yang tepat. Perusahaan dituntut untuk tidak hanya mengandalkan intuisi dalam menyusun strategi, tetapi juga memanfaatkan data sebagai dasar analisis yang objektif dan terukur. Salah satu bentuk pemanfaatan data dalam dunia bisnis adalah melalui analisis penjualan, yang bertujuan untuk memahami pola pembelian konsumen, kinerja produk, dan peluang pasar yang dapat dimaksimalkan.

kedai kopi, merupakan salah satu sektor yang sangat bergantung pada data penjualan untuk meningkatkan efisiensi operasional dan daya saing produk. Variasi jenis produk seperti kopi, teh, dan minuman herbal memiliki karakteristik pasar yang berbeda-beda. Oleh karena itu, pemahaman mendalam terhadap performa masing-masing produk sangat diperlukan agar perusahaan dapat mengambil keputusan yang tepat, seperti pengembangan produk, pengelolaan stok, dan strategi pemasaran yang lebih efektif.

Melalui penerapan analisis statistik dan visualisasi data, laporan ini membahas performa penjualan berdasarkan jenis produk (Product Type) yang tersedia dalam dataset Coffee Chain. Selain itu, laporan ini juga menyoroti pengaruh faktor eksternal seperti ukuran pasar (Market Size) terhadap penjualan produk tertentu, khususnya kopi. Analisis ini bertujuan untuk memberikan gambaran yang menyeluruh mengenai bagaimana data penjualan dapat digunakan sebagai alat bantu dalam merumuskan strategi bisnis yang lebih akurat dan adaptif terhadap kebutuhan pasar.

2 Preview Data

Dataset Coffee Chain berisi sebanyak 4.248 entri, yang mencakup data penjualan, anggaran, dan informasi produk dari jaringan penjualan kopi selama periode Januari 2012 hingga Desember 2013. Dataset ini terdiri dari 20 variabel, yang dapat dikelompokkan ke dalam beberapa kategori utama.

## Preview Data Coffe Chain
datatable(data, options = list(pageLength = 10))

Bagian ini memberikan gambaran awal terhadap struktur data yang akan dianalisis. Pemahaman terhadap atribut-atribut tersebut sangat penting untuk mengarahkan proses analisis eksploratif, uji statistik, serta visualisasi data yang relevan dengan tujuan analisis.

3 Uji Normalitas

Sebelum melakukan uji statistik parametrik seperti uji ANOVA atau uji-t, penting untuk memeriksa apakah data yang akan dianalisis berdistribusi normal. Salah satu metode yang umum digunakan untuk menguji normalitas adalah Uji Shapiro-Wilk, yang dirancang untuk mendeteksi deviasi dari distribusi normal.

Pada tahap ini, Uji Shapiro-Wilk diterapkan terhadap variabel Sales untuk masing-masing kategori produk, seperti Coffee, Espresso, Herbal Tea, dan Tea. Hasil uji ini akan membantu menentukan apakah pendekatan statistik parametrik dapat digunakan dalam analisis selanjutnya, ataukah perlu mempertimbangkan metode non-parametrik.

3.1 Uji Normalitas dengan Shapiro-Wilk

  1. Hipotesis

    Untuk setiap kelompok data (misalnya: kopi, espresso, teh herbal, teh), dilakukan uji normalitas dengan hipotesis sebagai berikut:

    \(H_0: \text{Data berdistribusi normal}\)

    \(H_1: \text{Data tidak berdistribusi normal}\)

  2. Taraf Signifikansi

    \(\alpha = 5\% = 0{,}05\)

  3. Daerah Kritis

    \(H_0 \text{ ditolak jika } \textit{P-Value} < 0{,}05\)

  4. Statistik Uji

    Uji Shapiro-Wilk dilakukan pada variabel Sales untuk masing-masing kategori produk untuk menguji apakah data berdistribusi normal. Nilai statistik W dan P-Value digunakan untuk pengambilan keputusan.

## Uji Shapiro-Wilk
shapiro_coffee <- shapiro.test(coffee_data$Sales)
shapiro_espresso <- shapiro.test(espresso_data$Sales)
shapiro_herbal_tea <- shapiro.test(herbal_tea_data$Sales)
shapiro_tea <- shapiro.test(tea_data$Sales)

## Menampilkan hasil
print("Shapiro-Wilk Test untuk Kopi:")
## [1] "Shapiro-Wilk Test untuk Kopi:"
print(shapiro_coffee)
## 
##  Shapiro-Wilk normality test
## 
## data:  coffee_data$Sales
## W = 0.73726, p-value < 2.2e-16
print("Shapiro-Wilk Test untuk Espresso:")
## [1] "Shapiro-Wilk Test untuk Espresso:"
print(shapiro_espresso)
## 
##  Shapiro-Wilk normality test
## 
## data:  espresso_data$Sales
## W = 0.79986, p-value < 2.2e-16
print("Shapiro-Wilk Test untuk Teh Herbal:")
## [1] "Shapiro-Wilk Test untuk Teh Herbal:"
print(shapiro_herbal_tea)
## 
##  Shapiro-Wilk normality test
## 
## data:  herbal_tea_data$Sales
## W = 0.80651, p-value < 2.2e-16
print("Shapiro-Wilk Test untuk Teh:")
## [1] "Shapiro-Wilk Test untuk Teh:"
print(shapiro_tea)
## 
##  Shapiro-Wilk normality test
## 
## data:  tea_data$Sales
## W = 0.79655, p-value < 2.2e-16
  1. Kesimpulan dan Interpretasi Hasil Uji Shapiro-Wilk

    Uji Shapiro-Wilk dilakukan untuk menguji apakah distribusi Sales dari masing-masing kategori produk (Kopi, Espresso, Teh Herbal, dan Teh) mengikuti distribusi normal.

    Berikut hasil pengujian:

  • Kopi: W = 0.73726, p-value < 2.2e-16
  • Espresso: W = 0.79986, p-value < 2.2e-16
  • Teh Herbal: W = 0.80651, p-value < 2.2e-16
  • Teh: W = 0.79655, p-value < 2.2e-16

Karena semua nilai p-value < 0.05, maka kita menolak H₀ untuk setiap kategori produk. Artinya Data penjualan (Sales) dari produk Kopi, Espresso, Teh Herbal, dan Teh tidak berdistribusi normal.

Dengan demikian, asumsi normalitas tidak terpenuhi. Oleh karena itu, jika ingin membandingkan rata-rata antar kelompok, sebaiknya digunakan uji non-parametrik seperti Kruskal-Wallis Test sebagai alternatif dari ANOVA.

3.2 Visualisasi Distribusi Penjualan

Untuk melengkapi analisis normalitas yang sebelumnya telah dilakukan menggunakan Uji Shapiro-Wilk, dilakukan juga visualisasi distribusi data menggunakan histogram dan Q-Q plot. Visualisasi ini bertujuan untuk memberikan gambaran visual mengenai bentuk distribusi penjualan (Sales) dari masing-masing kategori produk, apakah data menyebar secara simetris dan mendekati distribusi normal atau tidak.

3.2.1 Histogram

ggplot(combined_data_sales, aes(x = Sales, fill = Product)) +
  geom_histogram(bins = 30, alpha = 0.6) +
  facet_wrap(~Product, scales = "free") +
  scale_fill_manual(values = c(
    "Coffee" = "grey",
    "Espresso" = "black",
    "Tea" = "brown",
    "Herbal Tea" = "green"
  )) +
  labs(title = "Histogram Distribusi Sales Produk",
       x = "Sales", y = "Frekuensi") +
  theme_minimal()

Interpretasi:

Dari histogram masing-masing produk, terlihat bahwa distribusi penjualan cenderung tidak simetris dan memiliki kemencengan (skewness). Produk Coffee dan Espresso menunjukkan distribusi yang miring ke kanan (right-skewed).Produk Tea dan Herbal Tea juga menunjukkan penyebaran yang tidak normal, dengan puncak distribusi di sisi kiri dan rentang penjualan yang cukup panjang di sisi kanan.

3.2.2 Q-Q Plot

ggplot(combined_data_sales, aes(sample = Sales, color = Product)) +
  stat_qq() +
  stat_qq_line(color = "red") +
  facet_wrap(~Product, scales = "free") +
  scale_color_manual(values = c(
    "Coffee" = "grey",
    "Espresso" = "black",
    "Tea" = "brown",
    "Herbal Tea" = "green"
  )) +
  labs(title = "Q-Q Plot untuk Memeriksa Normalitas Sales") +
  theme_minimal()

Interpretasi:

Q-Q plot menunjukkan seberapa dekat distribusi data terhadap distribusi normal. Dari plot di atas seluruh jenis produk menunjukkan pola titik-titik yang menyimpang dari garis merah (garis normalitas).Hal ini memperkuat hasil uji Shapiro-Wilk sebelumnya, yaitu bahwa data penjualan dari keempat jenis produk tidak mengikuti distribusi normal.Dengan demikian, baik uji statistik maupun visualisasi menunjukkan hasil yang konsisten mengenai ketidakterpenuhan asumsi normalitas pada data Sales masing-masing produk.

4 Uji Homogenitas

Uji Homogenitas Varians (Levene’s Test) Uji Homogenitas Varians dilakukan untuk mengetahui apakah varians dari variabel Sales adalah sama (homogen) di antara kelompok produk yang berbeda. Uji ini penting sebagai salah satu asumsi dalam analisis ANOVA satu arah. Uji yang digunakan adalah Levene’s Test.

levene_sales <- leveneTest(Sales ~ Product,data = combined_data_sales)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
print("Levene's Test untuk Homogenitas Varians:")
## [1] "Levene's Test untuk Homogenitas Varians:"
print(levene_sales)
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value Pr(>F)
## group    3  1.0671 0.3617
##       4244

Interpretasi:

Berdasarkan output uji Levene di atas, diperoleh nilai:

  • F = 1.0671
  • p-value = 0.3617

Karena nilai p-value lebih besar dari taraf signifikansi \(\alpha = 0{.}05\), maka Gagal menolak \(H_0\) Artinya, tidak terdapat cukup bukti untuk menyatakan bahwa varians antar kelompok produk berbeda secara signifikan.

Kesimpulan: Data Sales antar jenis produk memiliki varians yang homogen, sehingga asumsi homogenitas varians terpenuhi.

Analisis Sales Produk Kopi vs Espresso vs Teh vs Teh Herbal

Untuk mendapatkan gambaran awal mengenai performa penjualan tiap produk, dilakukan perhitungan rata-rata nilai Sales dari masing-masing jenis produk, yaitu Kopi, Espresso, Teh, dan Teh Herbal. Rata-rata ini memberikan indikasi awal mengenai produk mana yang memiliki nilai penjualan tertinggi secara umum.

5 Analisis Rata-rata Sales (Product_Type)

## Rata-rata Sales per Produk
mean_sales_coffee <- mean(coffee_data$Sales, na.rm = TRUE)
mean_sales_espresso <- mean(espresso_data$Sales, na.rm = TRUE)
mean_sales_herbal_tea <- mean(herbal_tea_data$Sales, na.rm = TRUE)
mean_sales_tea <- mean(tea_data$Sales, na.rm = TRUE)

cat("Rata-rata Sales Kopi:", round(mean_sales_coffee, 2), "\n")
## Rata-rata Sales Kopi: 205.33
cat("Rata-rata Sales Espresso:", round(mean_sales_espresso, 2), "\n")
## Rata-rata Sales Espresso: 189.62
cat("Rata-rata Sales Teh Herbal:", round(mean_sales_herbal_tea, 2), "\n")
## Rata-rata Sales Teh Herbal: 196.23
cat("Rata-rata Sales Teh:", round(mean_sales_tea, 2), "\n")
## Rata-rata Sales Teh: 179.97

Interpretasi:

Dari keempat jenis produk tersebut, produk Kopi memiliki rata-rata penjualan tertinggi sebesar 205.33, diikuti oleh Teh Herbal sebesar 196.23, lalu Espresso sebesar 189.62, dan terakhir Teh dengan rata-rata penjualan terendah sebesar 179.97. Hal ini menunjukkan bahwa secara umum, produk Kopi paling unggul dalam performa penjualan dibandingkan produk lainnya.

5.1 Visualisasi Perbandingan Sales

Untuk memberikan gambaran yang lebih jelas mengenai sebaran dan perbandingan nilai Sales antar produk, dibuat visualisasi menggunakan plot jitter yang disertai dengan titik rata-rata (mean) pada masing-masing kategori produk.

ggplot(combined_data_sales, aes(x = Product, y = Sales, color = Product)) +
  geom_jitter(width = 0.2, alpha = 0.5) +
  stat_summary(fun = mean, geom = "point", shape = 18, size = 4, color = "red") +
  theme_minimal() +
  labs(title = "Perbandingan Sales Produk", x = "Produk", y = "Sales") +
  scale_color_manual(values = c("Coffee" = "grey","Espresso" = "black", "Tea" = "brown", "Herbal Tea" = "green"))

Interpretasi:

Dari visualisasi di atas, terlihat persebaran data Sales pada setiap jenis produk. Beberapa hal yang dapat diamati:

  • Titik-titik merah menunjukkan rata-rata Sales untuk masing-masing produk.
  • Produk Kopi memiliki rata-rata tertinggi dan persebaran data yang cukup luas.
  • Produk Teh menunjukkan rata-rata Sales paling rendah dibandingkan yang lain.
  • Secara visual, terdapat perbedaan rata-rata antar produk, namun diperlukan uji statistik (seperti ANOVA) untuk menyimpulkan apakah perbedaan tersebut signifikan secara statistik.
Visualisasi ini membantu memahami distribusi dan kecenderungan penjualan tiap produk sebelum dilakukan uji lanjutan.

5.2 Uji Kruskal-Wallis

Uji Kruskal-Wallis

Uji Kruskal-Wallis digunakan sebagai alternatif dari uji ANOVA satu arah ketika asumsi normalitas tidak terpenuhi. Uji ini digunakan untuk menentukan apakah terdapat perbedaan yang signifikan antara median Sales dari empat jenis produk: Kopi, Espresso, Teh Herbal, dan Teh.

kruskal_sales <- kruskal.test(Sales ~ Product, data = combined_data_sales)
print(kruskal_sales)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Sales by Product
## Kruskal-Wallis chi-squared = 41.245, df = 3, p-value = 5.802e-09

Hasil dan Interpretasi Uji Kruskal-Wallis:

Uji Kruskal-Wallis dilakukan untuk menguji apakah terdapat perbedaan signifikan dalam median Sales antara empat jenis produk: Kopi, Espresso, Teh Herbal, dan Teh.

Hasil Uji: Nilai statistik chi-squared: 41.245 Derajat kebebasan (df): 3 Nilai p-value: 5.802 × 10⁻⁹

Interpretasi: Karena nilai p-value (5.802e-09) jauh lebih kecil dari taraf signifikansi α = 0.05, maka: Terdapat setidaknya satu jenis produk yang memiliki median penjualan (Sales) yang berbeda secara signifikan dibandingkan dengan produk lainnya.

Dengan demikian, kita memiliki cukup bukti untuk menyatakan bahwa jenis produk memengaruhi penjualan secara signifikan.

Untuk mengetahui pasangan produk mana yang memiliki perbedaan signifikan dalam penjualan (Sales), dilakukan uji lanjut menggunakan Dunn Test dengan metode koreksi Bonferroni.

Uji ini dilakukan karena uji Kruskal-Wallis sebelumnya menunjukkan adanya perbedaan signifikan antar kelompok, namun tidak menunjukkan kelompok mana saja yang berbeda secara spesifik.

5.3 Dunn test

dunn.test(combined_data_sales$Sales, combined_data_sales$Product, method = "bonferroni")
##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 41.2451, df = 3, p-value = 0
## 
## 
##                            Comparison of x by group                            
##                                  (Bonferroni)                                  
## Col Mean-|
## Row Mean |     Coffee   Espresso   Herbal T
## ---------+---------------------------------
## Espresso |   3.770266
##          |    0.0005*
##          |
## Herbal T |   0.153268  -3.612931
##          |     1.0000    0.0009*
##          |
##      Tea |   5.251156   1.708878   5.101581
##          |    0.0000*     0.2624    0.0000*
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2

Interpretasi: Pasangan produk Kopi vs Espresso, Kopi vs Teh, Espresso vs Teh Herbal, dan Teh Herbal vs Teh menunjukkan p-value < 0.05, sehingga dapat disimpulkan terdapat perbedaan penjualan yang signifikan secara statistik. - Sebaliknya, Kopi vs Teh Herbal dan Espresso vs Teh tidak menunjukkan perbedaan yang signifikan.

6 Analisis Ukuran Pasar (Market_Size)

Setelah mengevaluasi penjualan berdasarkan jenis produk, analisis selanjutnya difokuskan pada perbedaan penjualan produk kopi berdasarkan ukuran pasar (Market Size). Dalam dataset ini, terdapat dua kategori Market Size, yaitu Small dan Large.

Analisis ini bertujuan untuk mengetahui apakah terdapat perbedaan kecenderungan penjualan produk kopi di pasar kecil dan besar. Dengan menyajikan statistik deskriptif seperti rata-rata, median, dan simpangan baku (standar deviasi) untuk masing-masing kategori, kita dapat memperoleh gambaran awal mengenai performa penjualan pada kedua tipe pasar tersebut.

Berikut adalah ringkasan statistik penjualan kopi berdasarkan Market Size:

6.1 Summary

sales_market_data <- coffee_data %>%
  select(`Market_Size`, Sales)

summary_sales <- sales_market_data %>%
  group_by(`Market_Size`) %>%
  summarise(
    Mean_Sales = mean(Sales, na.rm = TRUE),
    Median_Sales = median(Sales, na.rm = TRUE),
    SD_Sales = sd(Sales, na.rm = TRUE),
    .groups = "drop"
  )

summary_sales %>% kable() %>% kable_styling()
Market_Size Mean_Sales Median_Sales SD_Sales
Major Market 313.7181 236.5 217.16123
Small Market 137.0849 129.0 61.78467

Interpretasi Statistik Deskriptif Berdasarkan Ukuran Pasar

Berdasarkan tabel di atas, dapat disimpulkan bahwa:

  • Rata-rata Sales di Major Market jauh lebih tinggi (313.72) dibandingkan dengan Small Market (137.08).
  • Median Sales di Major Market (236.5) juga lebih tinggi dari Small Market (129.0), yang menunjukkan bahwa nilai tengah distribusi penjualan juga lebih besar di pasar besar.
  • Simpangan baku (Standard Deviation) pada Major Market (217.16) menunjukkan bahwa variasi penjualan lebih besar dibandingkan Small Market (61.78), yang berarti penjualan di pasar besar lebih bervariasi.

Temuan ini menunjukkan bahwa pasar besar tidak hanya memiliki tingkat penjualan yang lebih tinggi secara rata-rata, tetapi juga memiliki keragaman penjualan yang lebih tinggi. Namun, untuk mengetahui apakah perbedaan ini signifikan secara statistik, perlu dilakukan uji inferensial seperti uji t atau uji Mann-Whitney tergantung pada asumsi distribusi data.

Untuk memahami sebaran penjualan kopi pada masing-masing ukuran pasar, digunakan boxplot yang menggambarkan distribusi nilai Sales pada kategori Major Market dan Small Market.

6.2 Boxplot

ggplot(sales_market_data, aes(x = `Market_Size`, y = Sales, fill = `Market_Size`)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Distribusi Sales Kopi berdasarkan Ukuran Pasar", x = "Ukuran Pasar", y = "Sales") +
  scale_fill_brewer(palette = "Set2")

Interpretasi:

  • Median penjualan di Major Market lebih tinggi daripada di Small Market, ditunjukkan oleh garis horizontal pada boxplot yang lebih tinggi.
  • Penyebaran nilai Sales di Major Market jauh lebih besar. Hal ini terlihat dari rentang interkuartil yang lebar dan kehadiran beberapa pencilan (outliers) di sisi atas.
  • Sebaliknya, Small Market memiliki distribusi penjualan yang lebih terkonsentrasi di sekitar nilai yang lebih rendah, dengan rentang yang lebih sempit.
  • Kehadiran pencilan (titik-titik di luar box) terutama pada kategori Small Market menunjukkan bahwa terdapat beberapa data dengan penjualan yang jauh lebih tinggi dari nilai tipikalnya.

Untuk menguji apakah terdapat perbedaan signifikan dalam penjualan kopi antara Major Market dan Small Market, digunakan uji Wilcoxon Rank Sum Test (atau uji Mann-Whitney), karena hanya terdapat dua kelompok dan distribusi data tidak diasumsikan normal.

6.3 Uji Wilcoxon

wilcox.test(Sales ~ Market_Size, data = sales_market_data)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Sales by Market_Size
## W = 207719, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Interpretasi Hasil Uji Wilcoxon

Berdasarkan hasil uji Wilcoxon Rank Sum Test, diperoleh p-value yang jauh lebih kecil dari tingkat signifikansi α = 0.05 maka terdapat perbedaan yang signifikan secara statistik dalam penjualan kopi antara pasar besar (Major Market) dan pasar kecil (Small Market). Kesimpulan yang dapat diambil adalah bahwa ukuran pasar memengaruhi tingkat penjualan kopi, di mana penjualan di Major Market secara signifikan lebih tinggi dibandingkan dengan Small Market.

7 Kesimpulan

Data penjualan (Sales) dari produk Kopi, Espresso, Teh Herbal, dan Teh tidak berdistribusi normal.

Dengan demikian, asumsi normalitas tidak terpenuhi. Oleh karena itu, jika ingin membandingkan rata-rata antar kelompok, sebaiknya digunakan uji non-parametrik seperti Kruskal-Wallis Test sebagai alternatif dari ANOVA.

Dari keempat jenis produk tersebut, produk Kopi memiliki rata-rata penjualan tertinggi sebesar 205.33, diikuti oleh Teh Herbal sebesar 196.23, lalu Espresso sebesar 189.62, dan terakhir Teh dengan rata-rata penjualan terendah sebesar 179.97. Hal ini menunjukkan bahwa secara umum, produk Kopi paling unggul dalam performa penjualan dibandingkan produk lainnya.

Kesimpulan Strategis

  1. Jenis produk dan ukuran pasar sama-sama berpengaruh secara signifikan terhadap penjualan (Sales).

  2. Produk Espresso perlu menjadi fokus perhatian dalam strategi pengembangan karena penjualannya secara konsisten lebih rendah dibandingkan produk lain.

  3. Pasar besar (Major Market) memberikan peluang penjualan yang jauh lebih besar, sehingga perlu dimaksimalkan sebagai fokus distribusi utama dan target ekspansi.

  4. Di sisi lain, strategi khusus mungkin perlu disusun untuk meningkatkan daya jual di Small Market, misalnya melalui pendekatan pemasaran yang lebih personal atau penyesuaian harga