PENDAHUUAN

Data Coffe Chain merupakan dataset yang berisi informasi terkait aktivitas penjualan berbagai produk kopi dan teh di negara bagian Amerika. Analisis ini berfokus pada dataset Coffee Chain yang berfokus pada data produk type Coffee di berbagai negara bagian Amerika Serikat. Tujuan utama laporan ini adalah untuk memahami performa penjualan produk kopi serta pengaruh biaya pemasaran terhadap total penjualan.

Insight yang Diambil

Insight yang akan dianalisis dalam laporan ini adalah “Efektivitas Pemasaran terhadap Penjualan Produk Tipe Kopi (Coffee)”. Untuk melihat negara bagian mana yang memberikan kontribusi penjualan tertinggi dan apakah peningkatan biaya marketing berbanding lurus dengan peningkatan penjualan.

Import Library

Langkah pertama adalah memanggil library yang diperlukan untuk koneksi database manipulasi data, dan visualisasi.

library(DBI)
## Warning: package 'DBI' was built under R version 4.4.3
library(odbc)
## Warning: package 'odbc' was built under R version 4.4.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3

Koneksi Database

# Melakukan koneksi ke database
tgs = dbConnect(odbc(),
               Driver = "MySQL ODBC 8.0 ANSI Driver",
               Server = "127.0.0.1",
               UID = "root",
               PWD = "admin123",
               Port = 3306,
               database = "coffe chain")

Import Data

# Mengambil data spesifik tipe 'Coffee' dengan menggunakan JOIN antar tabel
kopi = dbGetQuery(tgs, "SELECT Product, `Product Type`, State, Sales, Profit, Marketing
FROM facttable
JOIN location USING (`Area Code`)
JOIN product USING (ProductId)
WHERE `Product Type` = 'Coffee';")

head(kopi)
##             Product Product Type    State Sales Profit Marketing
## 1          Amaretto       Coffee Colorado   219     94        24
## 2         Colombian       Coffee Colorado   190     68        27
## 3 Decaf Irish Cream       Coffee Colorado   234    101        26
## 4         Colombian       Coffee Illinois   345    111        47
## 5 Decaf Irish Cream       Coffee Illinois   234     87        30
## 6          Amaretto       Coffee     Iowa    45     11         5

Struktur Data

str(kopi)
## 'data.frame':    1056 obs. of  6 variables:
##  $ Product     : chr  "Amaretto" "Colombian" "Decaf Irish Cream" "Colombian" ...
##  $ Product Type: chr  "Coffee" "Coffee" "Coffee" "Coffee" ...
##  $ State       : chr  "Colorado" "Colorado" "Colorado" "Illinois" ...
##  $ Sales       : int  219 190 234 345 234 45 62 54 190 170 ...
##  $ Profit      : int  94 68 101 111 87 11 5 12 39 47 ...
##  $ Marketing   : int  24 27 26 47 30 5 8 7 32 24 ...
summary(kopi)
##    Product          Product Type          State               Sales      
##  Length:1056        Length:1056        Length:1056        Min.   : 23.0  
##  Class :character   Class :character   Class :character   1st Qu.:109.0  
##  Mode  :character   Mode  :character   Mode  :character   Median :146.5  
##                                                           Mean   :205.3  
##                                                           3rd Qu.:230.0  
##                                                           Max.   :912.0  
##      Profit          Marketing    
##  Min.   :-221.00   Min.   :  3.0  
##  1st Qu.:  17.00   1st Qu.: 14.0  
##  Median :  39.00   Median : 24.0  
##  Mean   :  70.72   Mean   : 31.6  
##  3rd Qu.:  91.00   3rd Qu.: 37.0  
##  Max.   : 778.00   Max.   :127.0

Visualisasi Data

# Visualisasi 1: Penjualan per Negara Bagian

ggplot(kopi, aes(x = "", fill = Product)) +
  geom_bar(width = 1) + 
  coord_polar("y", start = 0) +
  theme_void() +
  labs(title = "Distribusi Frekuensi Produk Kopi",
       fill = "Nama Produk") +
  scale_fill_manual(values = c(
    "Amaretto" = "khaki1",
    "Colombian" = "khaki3",      
    "Decaf Irish Cream" = "khaki4"
  ))+
  theme(plot.title = element_text(hjust = 0.5))

ggplot(kopi, aes(x = reorder(State, -Sales), y = Sales, fill = Product)) +
  geom_col() +
  scale_fill_manual(values = c(
    "Colombian" = "bisque3",      
    "Decaf Irish Cream" = "bisque4", 
    "Amaretto" = "bisque"        
  )) +
  labs(title = "Total Sales per Negara Bagian",
       x = "Negara Bagian",
       y = "Nilai Penjualan",
       fill = "Produk") +
theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
        plot.title = element_text(hjust = 0.5))

Interpretasi

Bedasarkan kedua grafik, menunjukan bahwa produk Colombian mendominasi volume penjualan di hampir seluruh wilayah sedangkan Amaretto memiliki volume penjualan yang sedikit serta tidak semua wilayah menjualnya. Dan California memiliki angka penjualan yang sangat tinggi dibandingkan dengan wilayah lainnya.

# Visualisasi 2: Hubungan Marketing vs Sales
ggplot(kopi, aes(x = Marketing, y = Sales)) +
  geom_point(aes(color = Product), size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "black", linetype = "dashed") +
  labs(title = "Hubungan Biaya Marketing terhadap Penjualan",
       x = "Biaya Marketing",
       y = "Total Sales") +
  theme_light()+
  theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using formula = 'y ~ x'

Interpretasi

Dari grafik, titik-titik data yang cenderung mendekati garis regresi menunjukkan bahwa hubungan antara kedua variabel ini cukup stabil.Terdapat tren positif yang berarti semakin besar biaya pemasaran yang dikeluarkan cenderung semakin tinggi pula penjualan yang dihasilkan.

Analisis Statistik

korelasi <- cor.test(kopi$Marketing, kopi$Sales)
korelasi
## 
##  Pearson's product-moment correlation
## 
## data:  kopi$Marketing and kopi$Sales
## t = 36.719, df = 1054, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7214450 0.7744897
## sample estimates:
##      cor 
## 0.749166

Interpretasi

H0 : Tidak terdapat hubungan yang signifikan antara biaya Marketing dengan Sales H1 : Terdapat hubungan yang signifikan antara biaya Marketing dengan Sales

p-value < 0,05, maka menolak H0. Artinya, secara statistik terdapat hubungan yang nyata antara biaya yang dikeluarkan untuk pemasaran dengan hasil penjualan yang didapatkan

# Regresi Liniar
cek <- lm(Sales ~ Marketing, data = kopi)
summary(cek)
## 
## Call:
## lm(formula = Sales ~ Marketing, data = kopi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -316.28  -27.09   -6.37   26.81  529.84 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  53.4462     5.3599   9.972   <2e-16 ***
## Marketing     4.8070     0.1309  36.719   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 110.8 on 1054 degrees of freedom
## Multiple R-squared:  0.5612, Adjusted R-squared:  0.5608 
## F-statistic:  1348 on 1 and 1054 DF,  p-value: < 2.2e-16

Interpretasi

Nilai koefisien variabel Marketing yang positif menunjukkan adanya pengaruh signifikan terhadap Sales. Hal ini memvalidasi insight bahwa investasi pada marketing memberikan dampak nyata pada pendapatan.

Kesimpulan

Berdasarkan seluruh tahapan analisis data Coffee Chain yang telah dilakukan, dapat ditarik beberapa kesimpulan: 1. Produk Colombian merupakan varian kopi yang paling sering muncul dalam transaksi dan memberikan kontribusi volume penjualan terbesar di berbagai wilayah. 2. Terdapat hubungan positif yang kuat antara biaya pemasaran dan total penjualan.