Penelitian ini bertujuan untuk membandingkan keuntungan (profit) antara dua jenis produk utama dalam industri minuman, yaitu Coffee dan Tea, menggunakan data dari Coffee Chain Dataset. Dataset ini mencakup informasi penjualan dari berbagai lokasi coffee chain di Amerika Serikat selama periode 2012–2013, dengan total 2016 entri data yang terdiri dari 1056 entri untuk Coffee dan 960 entri untuk Tea. Analisis ini dilakukan untuk memberikan wawasan bagi pengelola coffee chain dalam mengambil keputusan strategis terkait alokasi sumber daya, strategi pemasaran, dan pengelolaan inventori. Dengan memahami perbedaan profit antara Coffee dan Tea, baik dari segi rata-rata maupun variabilitasnya, diharapkan penelitian ini dapat membantu mengidentifikasi produk yang lebih menguntungkan, mengevaluasi stabilitas keuntungan, dan merumuskan strategi bisnis yang lebih efektif.
Pertama-tama, data diimpor dari file Coffee Chain Dataset yang tersedia dalam format Excel (.xlsx). Proses impor dan eksplorasi data dilakukan untuk memahami struktur, karakteristik, dan kualitas data sebelum melanjutkan ke analisis lebih lanjut.
data <- read_excel("3. CM1 - Coffee Chain Datasets.xlsx", sheet = "data") %>%
clean_names()
head(data)Eksplorasi awal dilakukan dengan menggunakan fungsi summary untuk mendapatkan ringkasan statistik deskriptif dari setiap kolom dalam dataset, termasuk nilai minimum, maksimum, kuartil, median, rata-rata, dan jumlah nilai yang hilang (NA). Berikut adalah hasilnya:
## area_code date market
## Min. :203.0 Min. :2012-01-01 00:00:00 Length:4248
## 1st Qu.:417.0 1st Qu.:2012-06-23 12:00:00 Class :character
## Median :573.0 Median :2012-12-16 12:00:00 Mode :character
## Mean :582.3 Mean :2012-12-15 22:00:00
## 3rd Qu.:772.0 3rd Qu.:2013-06-08 12:00:00
## Max. :985.0 Max. :2013-12-01 00:00:00
## market_size product product_line product_type
## Length:4248 Length:4248 Length:4248 Length:4248
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## state type budget_cogs budget_margin
## Length:4248 Length:4248 Min. : 0.00 Min. :-210.0
## Class :character Class :character 1st Qu.: 30.00 1st Qu.: 50.0
## Mode :character Mode :character Median : 50.00 Median : 70.0
## Mean : 74.83 Mean : 100.8
## 3rd Qu.: 90.00 3rd Qu.: 130.0
## Max. :450.00 Max. : 690.0
## budget_profit budget_sales cogs inventory
## Min. :-320.00 Min. : 0.0 Min. : 0.00 Min. :-3534.0
## 1st Qu.: 20.00 1st Qu.: 80.0 1st Qu.: 43.00 1st Qu.: 432.0
## Median : 40.00 Median : 130.0 Median : 60.00 Median : 619.0
## Mean : 60.91 Mean : 175.6 Mean : 84.43 Mean : 749.4
## 3rd Qu.: 80.00 3rd Qu.: 210.0 3rd Qu.:100.00 3rd Qu.: 910.5
## Max. : 560.00 Max. :1140.0 Max. :364.00 Max. : 8252.0
## margin marketing profit sales
## Min. :-302.00 Min. : 0.00 Min. :-638.0 Min. : 17
## 1st Qu.: 52.75 1st Qu.: 13.00 1st Qu.: 17.0 1st Qu.:100
## Median : 76.00 Median : 22.00 Median : 40.0 Median :138
## Mean : 104.29 Mean : 31.19 Mean : 61.1 Mean :193
## 3rd Qu.: 132.00 3rd Qu.: 39.00 3rd Qu.: 92.0 3rd Qu.:230
## Max. : 613.00 Max. :156.00 Max. : 778.0 Max. :912
## total_expenses
## Min. : 10.00
## 1st Qu.: 33.00
## Median : 46.00
## Mean : 54.06
## 3rd Qu.: 65.00
## Max. :190.00
Sebelum melakukan analisis lebih lanjut, kita perlu memfilter data untuk memastikan kita hanya bekerja dengan subset data yang relevan. Misalnya, dalam kasus ini, kita ingin fokus pada produk tertentu seperti “Coffee” dan “Tea”, yang merupakan kategori yang ingin dianalisis lebih mendalam. Dengan memfilter data berdasarkan kondisi tertentu (misalnya, produk yang dimaksud), kita dapat mengeliminasi informasi yang tidak terkait dan memastikan analisis kita lebih terarah. Setelah data difilter, langkah berikutnya adalah memilih variabel atau kolom yang diperlukan untuk analisis, seperti product_type dan profit, untuk mempermudah pemahaman dan interpretasi hasil.
df <- data %>%
filter(product_type %in% c("Coffee", "Tea")) %>%
select(product_type, profit)
table(df$product_type)##
## Coffee Tea
## 1056 960
Boxplot adalah grafik yang digunakan untuk menggambarkan sebaran data dengan menunjukkan nilai-nilai penting seperti median, kuartil, dan potensi outlier. Boxplot terdiri dari “kotak” yang mewakili rentang interkuartil (antara kuartil pertama Q1 dan kuartil ketiga Q3), dengan garis di dalam kotak yang menunjukkan median. “Whiskers” (garis horizontal di luar kotak) menunjukkan rentang data yang tidak dianggap outlier, sementara titik di luar whiskers adalah outlier. Boxplot membantu melihat distribusi data dan mengidentifikasi penyimpangan.
Berikut ini visualisasinya :
ggplot(df, aes(x = product_type, y = profit, fill = product_type)) +
geom_boxplot(outlier.colour = "red", outlier.size = 2, alpha = 0.8) +
theme_minimal(base_family = "Times") +
labs(title = "Distribusi Profit Produk Coffee dan Tea",
subtitle = "Perbandingan Median dan Sebaran Profit",
x = "Jenis Produk", y = "Profit (USD)") +
scale_fill_manual(values = c("Coffee" = "#8B4513", "Tea" = "#6B8E23")) +
theme(legend.position = "none",
plot.title = element_text(face = "bold", size = 14))Grafik boxplot di atas menggambarkan distribusi profit dari dua jenis produk utama, yaitu Coffee dan Tea, dalam dataset yang dianalisis. Secara visual, median profit untuk produk Tea tampak sedikit lebih tinggi dibandingkan Coffee, ditunjukkan oleh garis horizontal di dalam kotak yang merepresentasikan median. Namun, secara keseluruhan, persebaran data untuk kedua jenis produk menunjukkan adanya variasi yang cukup besar.
Untuk Coffee, rentang antar kuartil (interquartile range/IQR) relatif sempit, tetapi terdapat banyak outlier yang muncul jauh di atas maupun di bawah nilai normal, terutama profit negatif yang cukup ekstrem. Ini menandakan bahwa meskipun sebagian besar nilai profit berada dalam kisaran yang wajar, ada sejumlah cabang atau transaksi yang mengalami kerugian besar ataupun keuntungan tinggi secara tidak biasa. Sementara itu, untuk Tea, persebaran data terlihat sedikit lebih lebar, dengan median yang juga sedikit lebih tinggi dari Coffee. Outlier juga ditemukan pada produk Tea, baik dalam bentuk profit tinggi maupun kerugian. Namun, dibandingkan dengan Coffee, intensitas outlier Tea tampak sedikit lebih rendah.
Secara umum, bentuk boxplot yang tidak simetris, banyaknya outlier, dan adanya distribusi yang menyebar menunjukkan bahwa data profit untuk kedua produk kemungkinan tidak berdistribusi normal. Hal ini mendukung keputusan untuk menggunakan pendekatan statistik non-parametrik, seperti uji Mann-Whitney, dalam melakukan analisis perbandingan profit antar produk.
Uji Shapiro-Wilk digunakan untuk menguji apakah suatu sampel
berasal dari populasi yang berdistribusi normal.
Hipotesis yang diuji adalah:
Hipotesis
Tingkat Signifikansi
Daerah Kritis
Statistik Uji
Statistik uji Shapiro-Wilk didefinisikan sebagai:
\[ W = \frac{\left( \sum_{i=1}^{n} a_i x_{(i)} \right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \]
Kesimpulan
Berdasarkan hasil uji normalitas menggunakan Shapiro-Wilk test, kita bisa melihat p-value untuk kedua kelompok produk, yaitu Coffee dan Tea.
Karena kedua p-value sangat kecil (lebih kecil dari 0.05), kita menolak hipotesis nol (H₀) yang menyatakan bahwa data terdistribusi normal. Oleh karena itu, kita dapat menyimpulkan bahwa data profit untuk Coffee dan Tea tidak terdistribusi normal. Dengan demikian, sebelum melakukan analisis lebih lanjut yang memerlukan asumsi normalitas, kita perlu mempertimbangkan metode analisis non-parametrik atau melakukan transformasi data jika perlu.
Uji Levene digunakan untuk menguji kesamaan varians (homoskedastisitas) antar dua atau lebih kelompok.
Hipotesis
Tingkat Signifikansi
Daerah Kritis
Statistik Uji
Rumus statistik uji Levene:
\[ W = \frac{(N - k)}{(k - 1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_i - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_i)^2} \]
Kesimpulan
Hasil uji Levene menunjukkan nilai statistik 1.03219 dengan p-value sebesar 0.3098 (pada derajat kebebasan \(df_1 = 1\) dan \(df_2 = 2014\) . Karena p-value (0.3098) lebih besar dari tingkat signifikansi 0.05, kita gagal menolak hipotesis nol. Dengan demikian, dapat disimpulkan bahwa variansi profit antara Coffee dan Tea adalah homogen. Artinya, fluktuasi profit untuk kedua jenis produk ini tidak menunjukkan perbedaan signifikan, dan distribusi variansinya dapat dianggap serupa.
Uji Mann-Whitney atau Wilcoxon rank-sum test digunakan untuk
membandingkan dua kelompok independen saat data tidak berdistribusi
normal.
Uji ini membandingkan median dan distribusi antara dua kelompok.
Hipotesis
Tingkat Signifikansi
Daerah Kritis
Statistik Uji
Hitung jumlah ranking untuk masing-masing grup, lalu:
\[ U_1 = n_1 n_2 + \frac{n_1(n_1 + 1)}{2} - R_1 \]
\[ U_2 = n_1 n_2 + \frac{n_2(n_2 + 1)}{2} - R_2 \]
Kesimpulan
Karena p-value > 0.05 maka \(H_0\) gagal ditolak. Dengan kata lain, berdasarkan data ini, profit dari produk Coffee dan Tea memiliki distribusi yang serupa, dan tidak ada bukti statistik yang cukup untuk menyatakan bahwa salah satu kelompok menghasilkan profit yang lebih tinggi atau lebih rendah secara signifikan dibandingkan kelompok lainnya.
Jumlah Observasi: Coffee memiliki 1056 entri data, sedikit lebih banyak dibandingkan Tea dengan 960 entri, yang mungkin mencerminkan volume penjualan atau ketersediaan data yang lebih besar untuk Coffee.
Rata-rata Profit: Rata-rata profit Coffee (70.723) lebih tinggi dibandingkan Tea (55.194), dengan selisih sekitar 15.529. Ini menunjukkan bahwa Coffee cenderung menghasilkan profit lebih besar per entri secara rata-rata. Namun, perbedaan ini perlu diverifikasi dengan uji statistik signifikan (seperti uji Mann-Whitney sebelumnya yang menunjukkan p = 0.488, tidak signifikan).
Deviasi Standar: Deviasi standar Coffee (118.835) lebih tinggi dibandingkan Tea (109.155), menunjukkan bahwa profit Coffee memiliki variabilitas yang lebih besar. Artinya, profit Coffee lebih fluktuatif, sedangkan Tea menunjukkan konsistensi yang relatif lebih stabil.
Analisis statistik yang dilakukan terhadap profitabilitas produk Coffee dan Tea menggunakan Coffee Chain Dataset periode 2012 hingga 2013 memberikan beberapa wawasan penting yang dapat menjadi acuan bagi pengelola coffee chain dalam merumuskan strategi bisnis yang lebih efektif. Dataset ini mencakup 2016 entri data, dengan 1056 entri untuk Coffee dan 960 entri untuk Tea, yang mencerminkan penjualan di berbagai lokasi di Amerika Serikat. Analisis ini menggunakan pendekatan statistik deskriptif dan inferensial, meliputi uji normalitas, homogenitas variansi, dan perbandingan profit, untuk memahami karakteristik profit kedua produk secara mendalam.
Visualisasi data menggunakan boxplot mengungkapkan bahwa median profit Tea sedikit lebih tinggi dibandingkan Coffee, tetapi Coffee memiliki lebih banyak outlier ekstrem, terutama pada profit negatif yang signifikan, menandakan adanya transaksi dengan kerugian besar atau keuntungan yang tidak biasa. Persebaran data yang tidak simetris pada kedua produk, ditambah dengan adanya outlier, mendukung temuan dari uji normalitas bahwa data tidak terdistribusi normal, yang selanjutnya memperkuat alasan penggunaan metode
Hasil uji normalitas dengan metode Shapiro-Wilk menunjukkan bahwa distribusi profit untuk Coffee dan Tea tidak mengikuti distribusi normal, dengan nilai p-value masing-masing sebesar 2.986e-36 untuk Coffee dan 1.202e-36 untuk Tea, yang keduanya jauh di bawah tingkat signifikansi 0.05. Hal ini mengindikasikan bahwa data profit memiliki distribusi yang tidak simetris dan banyak outlier, sehingga metode statistik non-parametrik menjadi pilihan yang lebih tepat untuk analisis lebih lanjut. Oleh karena itu, uji Mann-Whitney dipilih untuk membandingkan profit kedua produk, sesuai dengan kondisi data yang tidak memenuhi asumsi normalitas.
Selanjutnya, uji homogenitas variansi menggunakan metode Levene menunjukkan bahwa variansi profit antara Coffee dan Tea bersifat homogen, dengan nilai p-value sebesar 0.3098 yang lebih besar dari tingkat signifikansi 0.05. Ini berarti fluktuasi profit untuk kedua jenis produk memiliki pola yang serupa, dan tidak terdapat perbedaan signifikan dalam stabilitas keuntungan antara Coffee dan Tea. Homogenitas ini memberikan keyakinan bahwa perbandingan profit menggunakan metode statistik tidak akan bias akibat perbedaan variansi, sehingga hasil analisis dapat diinterpretasikan dengan lebih akurat.
Uji Mann-Whitney yang dilakukan untuk membandingkan profit Coffee dan Tea menghasilkan nilai p-value sebesar 0.488, yang lebih besar dari tingkat signifikansi 0.05, sehingga hipotesis nol gagal ditolak. Dengan kata lain, tidak terdapat perbedaan signifikan antara profit Coffee dan Tea, meskipun secara deskriptif rata-rata profit Coffee lebih tinggi, yaitu 70.723, dibandingkan Tea yang memiliki rata-rata profit sebesar 55.194, dengan selisih sebesar 15.529. Distribusi profit keduanya dapat dianggap serupa, yang menunjukkan bahwa kedua produk memiliki performa keuntungan yang sebanding dalam konteks dataset ini.
Dari segi statistik deskriptif, Coffee menunjukkan rata-rata profit yang lebih tinggi, yaitu 70.723, dibandingkan Tea yang memiliki rata-rata profit 55.194, dengan selisih yang cukup signifikan secara numerik. Namun, Coffee juga memiliki variabilitas yang lebih besar, dengan deviasi standar sebesar 118.835, dibandingkan Tea yang memiliki deviasi standar 109.155, mengindikasikan bahwa profit Coffee cenderung lebih fluktuatif. Sementara itu, Tea menunjukkan stabilitas profit yang lebih baik karena variabilitasnya lebih rendah, yang dapat menjadi pertimbangan dalam perencanaan jangka panjang untuk mengelola risiko keuangan.
Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: SAGE Publications.
Shapiro, S. S., & Wilk, M. B. (1965). An Analysis of Variance Test for Normality (Complete Samples). Biometrika, 52(3/4), 591–611. https://doi.org/10.2307/2333709
Levene, H. (1960). Robust Tests for Equality of Variances. In I. Olkin (Ed.), Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling (pp. 278–292). Stanford University Press.
Mann, H. B., & Whitney, D. R. (1947). On a Test of Whether One of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), 50–60. https://doi.org/10.1214/aoms/1177730491
R Core Team. (2025). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Wickham, H., et al. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686. https://doi.org/10.21105/joss.01686
Kassambala, A. (2023). rstatix: Pipe-Friendly Framework for Basic Statistical Tests. R package version 0.7.2. https://CRAN.R-project.org/package=rstatix
Firke, S. (2023). janitor: Simple Tools for Data Cleaning and Examining Data. R package version 2.2.0. https://CRAN.R-project.org/package=janitor
Wickham, H., & Bryan, J. (2023). readxl: Read Excel Files. R package version 1.4.3. https://CRAN.R-project.org/package=readxl