Pendahuluan

Latar Belakang

Kebiasaan konsumsi minuman di berbagai wilayah dunia sering kali memiliki karakteristik yang berbeda. Di Amerika Serikat, kopi identik dengan gaya hidup modern, mulai dari aktivitas kerja, belajar, hingga interaksi sosial. Kehadiran perusahaan besar seperti Starbucks semakin memperkuat persepsi bahwa kopi mendominasi pasar minuman di Amerika.

Sebaliknya, produk berbasis daun seperti teh (tea) dan herbal tea lebih sering diasosiasikan dengan budaya konsumsi di wilayah Asia dan Eropa. Hal ini menimbulkan asumsi umum bahwa kopi lebih diminati dan lebih “laku” dibandingkan produk non-kopi, bahkan di pasar Amerika Serikat sekalipun.

Namun demikian, persepsi tersebut belum tentu mencerminkan kondisi bisnis yang sebenarnya. Tingginya konsumsi tidak selalu berarti performa penjualan dan keuntungan yang lebih baik. Oleh karena itu, diperlukan analisis berbasis data untuk mengevaluasi secara objektif apakah produk Coffee benar-benar lebih unggul dibandingkan Non-Cofffee dalam hal sales (penjualan) dan profit (keuntungan).

Pernyataan Analsisis

Apakah produk Coffee secara statistik memiliki sales dan profit yang lebih tinggi dibandingkan produk Non-Coffy?


Deskripsi Data

Import dan Eksplorasi Awal

# Load library
library(readxl)
library(dplyr)
library(ggplot2)

# Import data
data <- read_excel("~/Kuliah/SEM 4/Sistem Informasi Manajemen/1. Tugas SIM 2025B - Coffee Chain Datasets/Coffee Chain Datasets.xlsx")

# Lihat struktur data
str(data)
## tibble [4,248 × 20] (S3: tbl_df/tbl/data.frame)
##  $ Area Code     : num [1:4248] 719 970 970 303 303 720 970 719 970 719 ...
##  $ Date          : POSIXct[1:4248], format: "2012-01-01" "2012-01-01" ...
##  $ Market        : chr [1:4248] "Central" "Central" "Central" "Central" ...
##  $ Market Size   : chr [1:4248] "Major Market" "Major Market" "Major Market" "Major Market" ...
##  $ Product       : chr [1:4248] "Amaretto" "Colombian" "Decaf Irish Cream" "Green Tea" ...
##  $ Product Line  : chr [1:4248] "Beans" "Beans" "Beans" "Leaves" ...
##  $ Product Type  : chr [1:4248] "Coffee" "Coffee" "Coffee" "Tea" ...
##  $ State         : chr [1:4248] "Colorado" "Colorado" "Colorado" "Colorado" ...
##  $ Type          : chr [1:4248] "Regular" "Regular" "Decaf" "Regular" ...
##  $ Budget COGS   : num [1:4248] 90 80 100 30 60 80 140 50 50 40 ...
##  $ Budget Margin : num [1:4248] 130 110 140 50 90 130 160 80 70 70 ...
##  $ Budget Profit : num [1:4248] 100 80 110 30 70 80 110 20 40 20 ...
##  $ Budget Sales  : num [1:4248] 220 190 240 80 150 210 300 130 120 110 ...
##  $ COGS          : num [1:4248] 89 83 95 44 54 72 170 63 60 58 ...
##  $ Inventory     : num [1:4248] 777 623 821 623 456 ...
##  $ Margin        : num [1:4248] 130 107 139 56 80 108 171 87 80 72 ...
##  $ Marketing     : num [1:4248] 24 27 26 14 15 23 47 57 19 22 ...
##  $ Profit        : num [1:4248] 94 68 101 30 54 53 99 0 33 17 ...
##  $ Sales         : num [1:4248] 219 190 234 100 134 180 341 150 140 130 ...
##  $ Total Expenses: num [1:4248] 36 39 38 26 26 55 72 87 47 55 ...
# Ringkasan statistik keseluruhan
summary(data)
##    Area Code          Date                        Market         
##  Min.   :203.0   Min.   :2012-01-01 00:00:00   Length:4248       
##  1st Qu.:417.0   1st Qu.:2012-06-23 12:00:00   Class :character  
##  Median :573.0   Median :2012-12-16 12:00:00   Mode  :character  
##  Mean   :582.3   Mean   :2012-12-15 22:00:00                     
##  3rd Qu.:772.0   3rd Qu.:2013-06-08 12:00:00                     
##  Max.   :985.0   Max.   :2013-12-01 00:00:00                     
##  Market Size          Product          Product Line       Product Type      
##  Length:4248        Length:4248        Length:4248        Length:4248       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     State               Type            Budget COGS     Budget Margin   
##  Length:4248        Length:4248        Min.   :  0.00   Min.   :-210.0  
##  Class :character   Class :character   1st Qu.: 30.00   1st Qu.:  50.0  
##  Mode  :character   Mode  :character   Median : 50.00   Median :  70.0  
##                                        Mean   : 74.83   Mean   : 100.8  
##                                        3rd Qu.: 90.00   3rd Qu.: 130.0  
##                                        Max.   :450.00   Max.   : 690.0  
##  Budget Profit      Budget Sales         COGS          Inventory      
##  Min.   :-320.00   Min.   :   0.0   Min.   :  0.00   Min.   :-3534.0  
##  1st Qu.:  20.00   1st Qu.:  80.0   1st Qu.: 43.00   1st Qu.:  432.0  
##  Median :  40.00   Median : 130.0   Median : 60.00   Median :  619.0  
##  Mean   :  60.91   Mean   : 175.6   Mean   : 84.43   Mean   :  749.4  
##  3rd Qu.:  80.00   3rd Qu.: 210.0   3rd Qu.:100.00   3rd Qu.:  910.5  
##  Max.   : 560.00   Max.   :1140.0   Max.   :364.00   Max.   : 8252.0  
##      Margin          Marketing          Profit           Sales    
##  Min.   :-302.00   Min.   :  0.00   Min.   :-638.0   Min.   : 17  
##  1st Qu.:  52.75   1st Qu.: 13.00   1st Qu.:  17.0   1st Qu.:100  
##  Median :  76.00   Median : 22.00   Median :  40.0   Median :138  
##  Mean   : 104.29   Mean   : 31.19   Mean   :  61.1   Mean   :193  
##  3rd Qu.: 132.00   3rd Qu.: 39.00   3rd Qu.:  92.0   3rd Qu.:230  
##  Max.   : 613.00   Max.   :156.00   Max.   : 778.0   Max.   :912  
##  Total Expenses  
##  Min.   : 10.00  
##  1st Qu.: 33.00  
##  Median : 46.00  
##  Mean   : 54.06  
##  3rd Qu.: 65.00  
##  Max.   :190.00

Dataset ini terdiri dari 4.248 observasi dan 20 variabel, yang mencatat transaksi penjualan produk minuman di berbagai state di Amerika Sekrikat pada periode Januari 2012 - Desmber 2013.

Variabel Utama yang Digunakan

Variabel Tipe Keterangan
Product Line Karekter Jenis bahan utama: Beans (kopi) atau Leaves (teh)
Sales Numerik Total penjualan per transaksi
Profit Numerik Keuntungan per transaksi
Market Karakter Wilayah pasar
State Karakter Negara bagian wilayah pejualan

Pembuatan Variabel Kategori

Untuk menghindari bias klasifikasi (misalnya Espresso yang sejatinya masih termasuk produk kopi), pengelompokan menggunakan variabel Product Line: - CoffeeBeans - Non-CoffeeLeaves (mencakup Tea dan Herbal Tea)

# Buat variabel kategori
data <- data %>%
  mutate(Category = ifelse(`Product Line` == "Beans", "Coffee", "Non-Coffee"))

# Distribusi kategori
table(data$Category)
## 
##     Coffee Non-Coffee 
##       2232       2016

Eksplorasi Data

Distribusi Kategori Produk

# Distribusi Product Line
cat("=== Distribusi Product Line ===\n")
## === Distribusi Product Line ===
table(data$`Product Line`)
## 
##  Beans Leaves 
##   2232   2016
# Distribusi Product Type
cat("=== Distribusi Product Type ===\n")
## === Distribusi Product Type ===
table(data$`Product Type`)
## 
##     Coffee   Espresso Herbal Tea        Tea 
##       1056       1176       1056        960

Hasil eksplorasi menunjukkan bahwa:

  • Kategori Beans (Coffee) mencakup produk Coffee dan Espresso
  • Kategori Leaves (Non-Coffee) mencakup produk Tea dan Herbal Tea
  • Jumlah data Coffee (2.232) sedikit lebih banyak dibandingkan Non-Coffee (2.016)

##Visualisasi Distribusi Sales

ggplot(data, aes(x = Category, y = Sales, fill = Category)) +
  geom_boxplot(alpha = 0.75, outlier.colour = "#e74c3c", outlier.size = 1.5) +
  scale_fill_manual(values = c("Coffee" = "#6F4E37", "Non-Coffee" = "#27ae60")) +
  labs(
    title    = "Distribusi Sales: Coffee vs Non-Coffee",
    subtitle = "Berdasarkan Coffee Chain Dataset (2012-2013)",
    x        = "Kategori Produk",
    y        = "Sales",
    fill     = "Kategori"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title      = element_text(face = "bold", size = 14),
    plot.subtitle   = element_text(colour = "grey50"),
    legend.position = "none"
  )

Visualisasi Distribusi Profit

ggplot(data, aes(x = Category, y = Profit, fill = Category)) +
  geom_boxplot(alpha = 0.75, outlier.colour = "#e74c3c", outlier.size = 1.5) +
  scale_fill_manual(values = c("Coffee" = "#6F4E37", "Non-Coffee" = "#27ae60")) +
  labs(
    title    = "Distribusi Profit: Coffee vs Non-Coffee",
    subtitle = "Berdasarkan Coffee Chain Dataset (2012-2013)",
    x        = "Kategori Produk",
    y        = "Profit",
    fill     = "Kategori"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title      = element_text(face = "bold", size = 14),
    plot.subtitle   = element_text(colour = "grey50"),
    legend.position = "none"
  )

Visualisasi Perbandingan Rata-Rata

library(tidyr)
## Warning: package 'tidyr' was built under R version 4.4.3
summary_long <- data %>%
  group_by(Category) %>%
  summarise(
    mean_sales  = mean(Sales),
    mean_profit = mean(Profit)
  ) %>%
  pivot_longer(
    cols      = c(mean_sales, mean_profit),
    names_to  = "Metrik",
    values_to = "Nilai"
  ) %>%
  mutate(Metrik = recode(Metrik,
    "mean_sales"  = "Rata-rata Sales",
    "mean_profit" = "Rata-rata Profit"
  ))

ggplot(summary_long, aes(x = Category, y = Nilai, fill = Category)) +
  geom_col(alpha = 0.85, width = 0.5) +
  geom_text(aes(label = round(Nilai, 1)), vjust = -0.5, size = 4.2, fontface = "bold") +
  facet_wrap(~Metrik, scales = "free_y") +
  scale_fill_manual(values = c("Coffee" = "#6F4E37", "Non-Coffee" = "#27ae60")) +
  labs(
    title = "Perbandingan Rata-Rata Sales dan Profit",
    x     = "Kategori Produk",
    y     = "Nilai Rata-Rata"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title      = element_text(face = "bold", size = 14),
    legend.position = "none",
    strip.text      = element_text(face = "bold")
  )

Interpretasi visualisasi: Berdasarkan boxplot, distribusi sales pada kategori Coffee terlihat sedikit lebih tinggi dibandingkan Non-Coffee. Hal yang sama juga terlihat pada profit, meskipun perbedaannya tidak terllau mencolok secara visual. Selain itu, terdapat cukup banyak outlier pada kedua kategori, yang menunjukkan adanya variasi performa antar produk maupun wilayah.


Statistik Deskriptif

data %>%
  group_by(Category) %>%
  summarise(
    `Rata-rata Sales`    = round(mean(Sales), 2),
    `Median Sales`       = median(Sales),
    `Rata-rata Profit`   = round(mean(Profit), 2),
    `Median Profit`      = median(Profit),
    `Std. Dev Sales`     = round(sd(Sales), 2),
    `Std. Dev Profit`    = round(sd(Profit), 2),
    `Jumlah Observasi`   = n()
  )
## # A tibble: 2 × 8
##   Category   `Rata-rata Sales` `Median Sales` `Rata-rata Profit` `Median Profit`
##   <chr>                  <dbl>          <dbl>              <dbl>           <dbl>
## 1 Coffee                  197.            139               64.2              40
## 2 Non-Coffee              188.            137               57.7              42
## # ℹ 3 more variables: `Std. Dev Sales` <dbl>, `Std. Dev Profit` <dbl>,
## #   `Jumlah Observasi` <int>

Hasil statistik deskriptif menunjukkan bahwa:

  • Rata-rata Sales Coffee (197,0538) lebih tinggi dibandingkan Non-Coffee (188,4856)
  • Rata-rata Profit Coffee (64,20385) juga lebih tinggi dibandingkan Non-Coffee (57,65873)

Namun, perbedaan ini perlu diuji lebih lanjut untuk mengetahui apakah signifikan secara statistik.


Analisis Statistik

Hipotesis

Pengujian dilakukan dengan uji Welch Two Sample t-test (dua sisi) dengan hipotesis:

\[H_0: \mu_{\text{Coffee}} = \mu_{\text{Non-Coffee}} \quad \text{(tidak ada perbedaan rata-rata)}\] \[H_1: \mu_{\text{Coffee}} \neq \mu_{\text{Non-Coffee}} \quad \text{(ada perbedaan rata-rata)}\]

Tingkat signifikansi: \(\alpha = 0{,}05\)

Uji t untuk Sales

t.test(Sales ~ Category, data = data)
## 
##  Welch Two Sample t-test
## 
## data:  Sales by Category
## t = 1.8562, df = 4245.5, p-value = 0.06349
## alternative hypothesis: true difference in means between group Coffee and group Non-Coffee is not equal to 0
## 95 percent confidence interval:
##  -0.481483 17.617780
## sample estimates:
##     mean in group Coffee mean in group Non-Coffee 
##                 197.0538                 188.4856

Uji t untuk Profit

t.test(Profit ~ Category, data = data)
## 
##  Welch Two Sample t-test
## 
## data:  Profit by Category
## t = 2.1036, df = 4243.6, p-value = 0.03547
## alternative hypothesis: true difference in means between group Coffee and group Non-Coffee is not equal to 0
## 95 percent confidence interval:
##   0.4451093 12.6451364
## sample estimates:
##     mean in group Coffee mean in group Non-Coffee 
##                 64.20385                 57.65873

Interpretasi

Hasil Uji Sales

Untuk variabel sales, diperoleh nilai p-value = 0,0635, yang lebih besar dari α = 0,05. Dengan demikian, \(H_0\) gagal ditolak — tidak terdapat perbedaan yang signifikan secara statistik antara penjualan Coffee dan Non-Coffee.

Meskipun rata-rata sales Coffee sedikit lebih tinggi, perbedaan tersebut tidak cukup kuat secara statistik. Dengan kata lain, dalam hal jumlah penjualan, produk Non-Coffee masih mampu bersaing dengan Coffee.

Hasil Uji Profit

Untuk variabel profit, diperoleh nilai p-value = 0,0355, yang lebih kecil dari α = 0,05. Dengan demikian, \(H_0\) ditolak — terdapat perbedaan yang signifikan secara statistik dalam keuntungan antara Coffee dan Non-Coffee.

Ringkasan Hasil

Variabel p-value Keputusan Keterangan
Sales 0,0635 Gagal tolak \(H_0\) Tidak ada perbedaan signifikan
Profit 0,0355 Tolak \(H_0\) Ada perbedaan signifikan

Temuan ini memberikan insight yang menarik: produk Coffee tidak selalu jauh lebih laku, tetapi terbukti lebih menguntungkan. Dari sudut pandang bisnis, hal ini dapat mengindikasikan bahwa produk Coffee memiliki margin keuntungan yang lebih baik, strategi harga yang lebih optimal, atau efisiensi biaya yang lebih tinggi dibandingkan produk Non-Coffee.


Kesimpulan

Berdasarkan hasil analisis data Coffee Chain Dataset, dapat disimpulkan bahwa:

  1. Sales: Produk Coffee memiliki rata-rata penjualan yang sedikit lebih tinggi dibandingkan Non-Coffee, namun perbedaan ini tidak signifikan secara statistik (p-value = 0,0635 > 0,05).

  2. Profit: Produk Coffee memiliki keuntungan yang secara signifikan lebih tinggi dibandingkan Non-Coffee (p-value = 0,0355 < 0,05).

Dengan demikian, persepsi bahwa kopi lebih unggul di Amerika Serikat tidak sepenuhnya terbukti dalam hal volume penjualan, tetapi terbukti dalam hal profitabilitas.


Penutup

Analisis ini menunjukkan bahwa persepsi umum tidak selalu sepenuhnya benar ketika diuji menggunakan data. Meskipun kopi sering dianggap sebagai produk paling dominan di Amerika Serikat, keunggulan tersebut tidak terlalu terlihat dari jumlah penjualan. Namun, kopi memiliki keunggulan yang lebih penting dalam konteks bisnis, yaitu pada aspek keuntungan.

Hal ini memberikan pelajaran bahwa:

“Produk yang paling populer belum tentu yang paling menguntungkan.”

Ke depan, analisis lanjutan dapat dilakukan untuk mengeksplorasi faktor-faktor yang memengaruhi profit, seperti biaya produksi (COGS), strategi pemasaran (Marketing), maupun segmentasi pasar berdasarkan Market Size atau State.


Laporan ini dibuat sebagai pemenuhan tugas mata kuliah Sistem Informasi Manajemen — Program Studi S1 Statistika, FMIPA Universitas Sebelas Maret.