Pendahuluan

Penelitian ini bertujuan untuk membandingkan keuntungan (profit) antara dua jenis produk utama dalam industri minuman, yaitu Coffee dan Tea, menggunakan data dari Coffee Chain Dataset. Dataset ini mencakup informasi penjualan dari berbagai lokasi coffee chain di Amerika Serikat selama periode 2012–2013, dengan total 2016 entri data yang terdiri dari 1056 entri untuk Coffee dan 960 entri untuk Tea. Analisis ini dilakukan untuk memberikan wawasan bagi pengelola coffee chain dalam mengambil keputusan strategis terkait alokasi sumber daya, strategi pemasaran, dan pengelolaan inventori. Dengan memahami perbedaan profit antara Coffee dan Tea, baik dari segi rata-rata maupun variabilitasnya, diharapkan penelitian ini dapat membantu mengidentifikasi produk yang lebih menguntungkan, mengevaluasi stabilitas keuntungan, dan merumuskan strategi bisnis yang lebih efektif.

Impor dan Eksplorasi Data

Pertama-tama, data diimpor dari file Coffee Chain Dataset yang tersedia dalam format Excel (.xlsx). Proses impor dan eksplorasi data dilakukan untuk memahami struktur, karakteristik, dan kualitas data sebelum melanjutkan ke analisis lebih lanjut.

data <- read_excel("3. CM1 - Coffee Chain Datasets.xlsx", sheet = "data") %>%
  clean_names()
head(data)

Eksplorasi awal dilakukan dengan menggunakan fungsi summary untuk mendapatkan ringkasan statistik deskriptif dari setiap kolom dalam dataset, termasuk nilai minimum, maksimum, kuartil, median, rata-rata, dan jumlah nilai yang hilang (NA). Berikut adalah hasilnya:

summary(data)

##    area_code          date                        market         
##  Min.   :203.0   Min.   :2012-01-01 00:00:00   Length:4248       
##  1st Qu.:417.0   1st Qu.:2012-06-23 12:00:00   Class :character  
##  Median :573.0   Median :2012-12-16 12:00:00   Mode  :character  
##  Mean   :582.3   Mean   :2012-12-15 22:00:00                     
##  3rd Qu.:772.0   3rd Qu.:2013-06-08 12:00:00                     
##  Max.   :985.0   Max.   :2013-12-01 00:00:00                     
##  market_size          product          product_line       product_type      
##  Length:4248        Length:4248        Length:4248        Length:4248       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     state               type            budget_cogs     budget_margin   
##  Length:4248        Length:4248        Min.   :  0.00   Min.   :-210.0  
##  Class :character   Class :character   1st Qu.: 30.00   1st Qu.:  50.0  
##  Mode  :character   Mode  :character   Median : 50.00   Median :  70.0  
##                                        Mean   : 74.83   Mean   : 100.8  
##                                        3rd Qu.: 90.00   3rd Qu.: 130.0  
##                                        Max.   :450.00   Max.   : 690.0  
##  budget_profit      budget_sales         cogs          inventory      
##  Min.   :-320.00   Min.   :   0.0   Min.   :  0.00   Min.   :-3534.0  
##  1st Qu.:  20.00   1st Qu.:  80.0   1st Qu.: 43.00   1st Qu.:  432.0  
##  Median :  40.00   Median : 130.0   Median : 60.00   Median :  619.0  
##  Mean   :  60.91   Mean   : 175.6   Mean   : 84.43   Mean   :  749.4  
##  3rd Qu.:  80.00   3rd Qu.: 210.0   3rd Qu.:100.00   3rd Qu.:  910.5  
##  Max.   : 560.00   Max.   :1140.0   Max.   :364.00   Max.   : 8252.0  
##      margin          marketing          profit           sales    
##  Min.   :-302.00   Min.   :  0.00   Min.   :-638.0   Min.   : 17  
##  1st Qu.:  52.75   1st Qu.: 13.00   1st Qu.:  17.0   1st Qu.:100  
##  Median :  76.00   Median : 22.00   Median :  40.0   Median :138  
##  Mean   : 104.29   Mean   : 31.19   Mean   :  61.1   Mean   :193  
##  3rd Qu.: 132.00   3rd Qu.: 39.00   3rd Qu.:  92.0   3rd Qu.:230  
##  Max.   : 613.00   Max.   :156.00   Max.   : 778.0   Max.   :912  
##  total_expenses  
##  Min.   : 10.00  
##  1st Qu.: 33.00  
##  Median : 46.00  
##  Mean   : 54.06  
##  3rd Qu.: 65.00  
##  Max.   :190.00

Filter dan Visualisasi Jenis Produk

Sebelum melakukan analisis lebih lanjut, kita perlu memfilter data untuk memastikan kita hanya bekerja dengan subset data yang relevan. Misalnya, dalam kasus ini, kita ingin fokus pada produk tertentu seperti “Coffee” dan “Tea”, yang merupakan kategori yang ingin dianalisis lebih mendalam. Dengan memfilter data berdasarkan kondisi tertentu (misalnya, produk yang dimaksud), kita dapat mengeliminasi informasi yang tidak terkait dan memastikan analisis kita lebih terarah. Setelah data difilter, langkah berikutnya adalah memilih variabel atau kolom yang diperlukan untuk analisis, seperti product_type dan profit, untuk mempermudah pemahaman dan interpretasi hasil.

df <- data %>%
  filter(product_type %in% c("Coffee", "Tea")) %>%
  select(product_type, profit)

table(df$product_type)

## 
## Coffee    Tea 
##   1056    960

Boxplot adalah grafik yang digunakan untuk menggambarkan sebaran data dengan menunjukkan nilai-nilai penting seperti median, kuartil, dan potensi outlier. Boxplot terdiri dari “kotak” yang mewakili rentang interkuartil (antara kuartil pertama Q1 dan kuartil ketiga Q3), dengan garis di dalam kotak yang menunjukkan median. “Whiskers” (garis horizontal di luar kotak) menunjukkan rentang data yang tidak dianggap outlier, sementara titik di luar whiskers adalah outlier. Boxplot membantu melihat distribusi data dan mengidentifikasi penyimpangan.

Berikut ini visualisasinya :

ggplot(df, aes(x = product_type, y = profit, fill = product_type)) +
  geom_boxplot(outlier.colour = "red", outlier.size = 2, alpha = 0.8) +
  theme_minimal(base_family = "Times") +
  labs(title = "Distribusi Profit Produk Coffee dan Tea",
       subtitle = "Perbandingan Median dan Sebaran Profit",
       x = "Jenis Produk", y = "Profit (USD)") +
  scale_fill_manual(values = c("Coffee" = "#8B4513", "Tea" = "#6B8E23")) +
  theme(legend.position = "none",
        plot.title = element_text(face = "bold", size = 14))

Grafik boxplot di atas menggambarkan distribusi profit dari dua jenis produk utama, yaitu Coffee dan Tea, dalam dataset yang dianalisis. Secara visual, median profit untuk produk Tea tampak sedikit lebih tinggi dibandingkan Coffee, ditunjukkan oleh garis horizontal di dalam kotak yang merepresentasikan median. Namun, secara keseluruhan, persebaran data untuk kedua jenis produk menunjukkan adanya variasi yang cukup besar.

Untuk Coffee, rentang antar kuartil (interquartile range/IQR) relatif sempit, tetapi terdapat banyak outlier yang muncul jauh di atas maupun di bawah nilai normal, terutama profit negatif yang cukup ekstrem. Ini menandakan bahwa meskipun sebagian besar nilai profit berada dalam kisaran yang wajar, ada sejumlah cabang atau transaksi yang mengalami kerugian besar ataupun keuntungan tinggi secara tidak biasa. Sementara itu, untuk Tea, persebaran data terlihat sedikit lebih lebar, dengan median yang juga sedikit lebih tinggi dari Coffee. Outlier juga ditemukan pada produk Tea, baik dalam bentuk profit tinggi maupun kerugian. Namun, dibandingkan dengan Coffee, intensitas outlier Tea tampak sedikit lebih rendah.

Secara umum, bentuk boxplot yang tidak simetris, banyaknya outlier, dan adanya distribusi yang menyebar menunjukkan bahwa data profit untuk kedua produk kemungkinan tidak berdistribusi normal. Hal ini mendukung keputusan untuk menggunakan pendekatan statistik non-parametrik, seperti uji Mann-Whitney, dalam melakukan analisis perbandingan profit antar produk.

Uji Normalitas

Uji Shapiro-Wilk

Uji Shapiro-Wilk digunakan untuk menguji apakah suatu sampel berasal dari populasi yang berdistribusi normal.
Hipotesis yang diuji adalah:

Hipotesis
- \(H_0\): Data berasal dari distribusi normal
- \(H_1\): Data tidak berasal dari distribusi normal
Tingkat Signifikansi
- \(\alpha = 0{,}05\)
Daerah Kritis
- Tolak \(H_0\) jika nilai p < 0.05
Statistik Uji

Statistik uji Shapiro-Wilk didefinisikan sebagai:

\[ W = \frac{\left( \sum_{i=1}^{n} a_i x_{(i)} \right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \]
- \(x_{(i)}\): urutan nilai sampel dari kecil ke besar
- \(\bar{x}\): rata-rata sampel
- \(a_i\): konstanta tergantung pada kovarians dan varian sampel
Kesimpulan
- Jika p-value < 0.05 → Tolak \(H_0\) → Data tidak berdistribusi normal
- Jika p-value ≥ 0.05 → Gagal tolak \(H_0\) → Data berdistribusi normal

df %>% 
  group_by(product_type) %>% 
  shapiro_test(profit)

Berdasarkan hasil uji normalitas menggunakan Shapiro-Wilk test, kita bisa melihat p-value untuk kedua kelompok produk, yaitu Coffee dan Tea.

Untuk Coffee, p-value = 2.986464e-36.
Untuk Tea, p-value = 1.202835e-36.

Karena kedua p-value sangat kecil (lebih kecil dari 0.05), kita menolak hipotesis nol (H₀) yang menyatakan bahwa data terdistribusi normal. Oleh karena itu, kita dapat menyimpulkan bahwa data profit untuk Coffee dan Tea tidak terdistribusi normal. Dengan demikian, sebelum melakukan analisis lebih lanjut yang memerlukan asumsi normalitas, kita perlu mempertimbangkan metode analisis non-parametrik atau melakukan transformasi data jika perlu.

Uji Homogenitas Varians

Teori Uji Levene

Uji Levene digunakan untuk menguji kesamaan varians (homoskedastisitas) antar dua atau lebih kelompok.

Hipotesis
- \(H_0\): Varians antar kelompok sama (\(\sigma_1^2 = \sigma_2^2\))
- \(H_1\): Varians antar kelompok berbeda (\(\sigma_1^2 \ne \sigma_2^2\))
Tingkat Signifikansi
- \(\alpha = 0{,}05\)
Daerah Kritis
- Tolak \(H_0\) jika p-value < 0.05
Statistik Uji

Rumus statistik uji Levene:

\[ W = \frac{(N - k)}{(k - 1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_i - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_i)^2} \]
- \(Z_{ij} = |Y_{ij} - \tilde{Y}_i|\), selisih absolut dari median grup
- \(k\): jumlah kelompok
- \(n_i\): ukuran sampel di grup ke-i
- \(N\): total sampel
- \(\bar{Z}_i\): rata-rata Z di grup ke-i
- \(\bar{Z}\): rata-rata total
Kesimpulan
- Jika p-value < 0.05 → Tolak \(H_0\) → Varians tidak homogen
- Jika p-value ≥ 0.05 → Gagal tolak \(H_0\) → Varians homogen

df %>% levene_test(profit ~ product_type)

Hasil uji Levene menunjukkan nilai statistik 1.03219 dengan p-value sebesar 0.3098 (pada derajat kebebasan \(df_1 = 1\) dan \(df_2 = 2014\) . Karena p-value (0.3098) lebih besar dari tingkat signifikansi 0.05, kita gagal menolak hipotesis nol. Dengan demikian, dapat disimpulkan bahwa variansi profit antara Coffee dan Tea adalah homogen. Artinya, fluktuasi profit untuk kedua jenis produk ini tidak menunjukkan perbedaan signifikan, dan distribusi variansinya dapat dianggap serupa.

Uji Hipotesis (Mann-Whitney U Test)

Uji Mann-Whitney atau Wilcoxon rank-sum test digunakan untuk membandingkan dua kelompok independen saat data tidak berdistribusi normal.
Uji ini membandingkan median dan distribusi antara dua kelompok.

Hipotesis
- \(H_0\): Distribusi atau median kedua kelompok sama
- \(H_1\): Terdapat perbedaan distribusi atau median
Tingkat Signifikansi
- \(\alpha = 0{,}05\)
Daerah Kritis
- Tolak \(H_0\) jika p-value < 0.05
Statistik Uji

Hitung jumlah ranking untuk masing-masing grup, lalu:

\[ U_1 = n_1 n_2 + \frac{n_1(n_1 + 1)}{2} - R_1 \]

\[ U_2 = n_1 n_2 + \frac{n_2(n_2 + 1)}{2} - R_2 \]
- \(n_1\), \(n_2\): ukuran sampel masing-masing grup
- \(R_1\), \(R_2\): total ranking dari masing-masing grup
- Statistik uji: \(U = \min(U_1, U_2)\)
Kesimpulan
- Jika p-value < 0.05 → Tolak \(H_0\) → Ada perbedaan signifikan antara kelompok
- Jika p-value ≥ 0.05 → Gagal tolak \(H_0\) → Tidak ada perbedaan signifikan

wilcox_result <- wilcox_test(profit ~ product_type, data = df)
wilcox_result

Karena p-value > 0.05 maka \(H_0\) gagal ditolak. Dengan kata lain, berdasarkan data ini, profit dari produk Coffee dan Tea memiliki distribusi yang serupa, dan tidak ada bukti statistik yang cukup untuk menyatakan bahwa salah satu kelompok menghasilkan profit yang lebih tinggi atau lebih rendah secara signifikan dibandingkan kelompok lainnya.

Statistik Deskriptif

df %>%
  group_by(product_type) %>%
  get_summary_stats(profit, type = "mean_sd")

Jumlah Observasi: Coffee memiliki 1056 entri data, sedikit lebih banyak dibandingkan Tea dengan 960 entri, yang mungkin mencerminkan volume penjualan atau ketersediaan data yang lebih besar untuk Coffee.

Rata-rata Profit: Rata-rata profit Coffee (70.723) lebih tinggi dibandingkan Tea (55.194), dengan selisih sekitar 15.529. Ini menunjukkan bahwa Coffee cenderung menghasilkan profit lebih besar per entri secara rata-rata. Namun, perbedaan ini perlu diverifikasi dengan uji statistik signifikan (seperti uji Mann-Whitney sebelumnya yang menunjukkan p = 0.488, tidak signifikan).

Deviasi Standar: Deviasi standar Coffee (118.835) lebih tinggi dibandingkan Tea (109.155), menunjukkan bahwa profit Coffee memiliki variabilitas yang lebih besar. Artinya, profit Coffee lebih fluktuatif, sedangkan Tea menunjukkan konsistensi yang relatif lebih stabil.

Kesimpulan

Analisis statistik yang dilakukan terhadap profitabilitas produk Coffee dan Tea menggunakan Coffee Chain Dataset periode 2012 hingga 2013 memberikan beberapa wawasan penting yang dapat menjadi acuan bagi pengelola coffee chain dalam merumuskan strategi bisnis yang lebih efektif. Dataset ini mencakup 2016 entri data, dengan 1056 entri untuk Coffee dan 960 entri untuk Tea, yang mencerminkan penjualan di berbagai lokasi di Amerika Serikat. Analisis ini menggunakan pendekatan statistik deskriptif dan inferensial, meliputi uji normalitas, homogenitas variansi, dan perbandingan profit, untuk memahami karakteristik profit kedua produk secara mendalam.

Visualisasi data menggunakan boxplot mengungkapkan bahwa median profit Tea sedikit lebih tinggi dibandingkan Coffee, tetapi Coffee memiliki lebih banyak outlier ekstrem, terutama pada profit negatif yang signifikan, menandakan adanya transaksi dengan kerugian besar atau keuntungan yang tidak biasa. Persebaran data yang tidak simetris pada kedua produk, ditambah dengan adanya outlier, mendukung temuan dari uji normalitas bahwa data tidak terdistribusi normal, yang selanjutnya memperkuat alasan penggunaan metode

Hasil uji normalitas dengan metode Shapiro-Wilk menunjukkan bahwa distribusi profit untuk Coffee dan Tea tidak mengikuti distribusi normal, dengan nilai p-value masing-masing sebesar 2.986e-36 untuk Coffee dan 1.202e-36 untuk Tea, yang keduanya jauh di bawah tingkat signifikansi 0.05. Hal ini mengindikasikan bahwa data profit memiliki distribusi yang tidak simetris dan banyak outlier, sehingga metode statistik non-parametrik menjadi pilihan yang lebih tepat untuk analisis lebih lanjut. Oleh karena itu, uji Mann-Whitney dipilih untuk membandingkan profit kedua produk, sesuai dengan kondisi data yang tidak memenuhi asumsi normalitas.

Selanjutnya, uji homogenitas variansi menggunakan metode Levene menunjukkan bahwa variansi profit antara Coffee dan Tea bersifat homogen, dengan nilai p-value sebesar 0.3098 yang lebih besar dari tingkat signifikansi 0.05. Ini berarti fluktuasi profit untuk kedua jenis produk memiliki pola yang serupa, dan tidak terdapat perbedaan signifikan dalam stabilitas keuntungan antara Coffee dan Tea. Homogenitas ini memberikan keyakinan bahwa perbandingan profit menggunakan metode statistik tidak akan bias akibat perbedaan variansi, sehingga hasil analisis dapat diinterpretasikan dengan lebih akurat.

Uji Mann-Whitney yang dilakukan untuk membandingkan profit Coffee dan Tea menghasilkan nilai p-value sebesar 0.488, yang lebih besar dari tingkat signifikansi 0.05, sehingga hipotesis nol gagal ditolak. Dengan kata lain, tidak terdapat perbedaan signifikan antara profit Coffee dan Tea, meskipun secara deskriptif rata-rata profit Coffee lebih tinggi, yaitu 70.723, dibandingkan Tea yang memiliki rata-rata profit sebesar 55.194, dengan selisih sebesar 15.529. Distribusi profit keduanya dapat dianggap serupa, yang menunjukkan bahwa kedua produk memiliki performa keuntungan yang sebanding dalam konteks dataset ini.

Dari segi statistik deskriptif, Coffee menunjukkan rata-rata profit yang lebih tinggi, yaitu 70.723, dibandingkan Tea yang memiliki rata-rata profit 55.194, dengan selisih yang cukup signifikan secara numerik. Namun, Coffee juga memiliki variabilitas yang lebih besar, dengan deviasi standar sebesar 118.835, dibandingkan Tea yang memiliki deviasi standar 109.155, mengindikasikan bahwa profit Coffee cenderung lebih fluktuatif. Sementara itu, Tea menunjukkan stabilitas profit yang lebih baik karena variabilitasnya lebih rendah, yang dapat menjadi pertimbangan dalam perencanaan jangka panjang untuk mengelola risiko keuangan.

Daftar Pustaka

Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: SAGE Publications.
Shapiro, S. S., & Wilk, M. B. (1965). An Analysis of Variance Test for Normality (Complete Samples). Biometrika, 52(3/4), 591–611. https://doi.org/10.2307/2333709
Levene, H. (1960). Robust Tests for Equality of Variances. In I. Olkin (Ed.), Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling (pp. 278–292). Stanford University Press.
Mann, H. B., & Whitney, D. R. (1947). On a Test of Whether One of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), 50–60. https://doi.org/10.1214/aoms/1177730491
R Core Team. (2025). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Wickham, H., et al. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686. https://doi.org/10.21105/joss.01686
Kassambala, A. (2023). rstatix: Pipe-Friendly Framework for Basic Statistical Tests. R package version 0.7.2. https://CRAN.R-project.org/package=rstatix
Firke, S. (2023). janitor: Simple Tools for Data Cleaning and Examining Data. R package version 2.2.0. https://CRAN.R-project.org/package=janitor
Wickham, H., & Bryan, J. (2023). readxl: Read Excel Files. R package version 1.4.3. https://CRAN.R-project.org/package=readxl

Analisis Statistik Keuntungan Produk Coffee dan Tea pada Coffee Chain di Amerika Serikat

oleh Amira Fatin (M0723008)