Data Coffe Chain merupakan dataset yang berisi informasi terkait aktivitas penjualan berbagai produk kopi dan teh di negara bagian Amerika. Analisis ini berfokus pada dataset Coffee Chain yang berfokus pada data produk type Coffee di berbagai negara bagian Amerika Serikat. Tujuan utama laporan ini adalah untuk memahami performa penjualan produk kopi serta pengaruh biaya pemasaran terhadap total penjualan.
Insight yang akan dianalisis dalam laporan ini adalah “Efektivitas Pemasaran terhadap Penjualan Produk Tipe Kopi (Coffee)”. Untuk melihat negara bagian mana yang memberikan kontribusi penjualan tertinggi dan apakah peningkatan biaya marketing berbanding lurus dengan peningkatan penjualan.
Langkah pertama adalah memanggil library yang diperlukan untuk koneksi database manipulasi data, dan visualisasi.
library(DBI)
## Warning: package 'DBI' was built under R version 4.4.3
library(odbc)
## Warning: package 'odbc' was built under R version 4.4.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
# Melakukan koneksi ke database
tgs = dbConnect(odbc(),
Driver = "MySQL ODBC 8.0 ANSI Driver",
Server = "127.0.0.1",
UID = "root",
PWD = "admin123",
Port = 3306,
database = "coffe chain")
# Mengambil data spesifik tipe 'Coffee' dengan menggunakan JOIN antar tabel
kopi = dbGetQuery(tgs, "SELECT Product, `Product Type`, State, Sales, Profit, Marketing
FROM facttable
JOIN location USING (`Area Code`)
JOIN product USING (ProductId)
WHERE `Product Type` = 'Coffee';")
head(kopi)
## Product Product Type State Sales Profit Marketing
## 1 Amaretto Coffee Colorado 219 94 24
## 2 Colombian Coffee Colorado 190 68 27
## 3 Decaf Irish Cream Coffee Colorado 234 101 26
## 4 Colombian Coffee Illinois 345 111 47
## 5 Decaf Irish Cream Coffee Illinois 234 87 30
## 6 Amaretto Coffee Iowa 45 11 5
str(kopi)
## 'data.frame': 1056 obs. of 6 variables:
## $ Product : chr "Amaretto" "Colombian" "Decaf Irish Cream" "Colombian" ...
## $ Product Type: chr "Coffee" "Coffee" "Coffee" "Coffee" ...
## $ State : chr "Colorado" "Colorado" "Colorado" "Illinois" ...
## $ Sales : int 219 190 234 345 234 45 62 54 190 170 ...
## $ Profit : int 94 68 101 111 87 11 5 12 39 47 ...
## $ Marketing : int 24 27 26 47 30 5 8 7 32 24 ...
summary(kopi)
## Product Product Type State Sales
## Length:1056 Length:1056 Length:1056 Min. : 23.0
## Class :character Class :character Class :character 1st Qu.:109.0
## Mode :character Mode :character Mode :character Median :146.5
## Mean :205.3
## 3rd Qu.:230.0
## Max. :912.0
## Profit Marketing
## Min. :-221.00 Min. : 3.0
## 1st Qu.: 17.00 1st Qu.: 14.0
## Median : 39.00 Median : 24.0
## Mean : 70.72 Mean : 31.6
## 3rd Qu.: 91.00 3rd Qu.: 37.0
## Max. : 778.00 Max. :127.0
# Visualisasi 1: Penjualan per Negara Bagian
ggplot(kopi, aes(x = "", fill = Product)) +
geom_bar(width = 1) +
coord_polar("y", start = 0) +
theme_void() +
labs(title = "Distribusi Frekuensi Produk Kopi",
fill = "Nama Produk") +
scale_fill_manual(values = c(
"Amaretto" = "khaki1",
"Colombian" = "khaki3",
"Decaf Irish Cream" = "khaki4"
))+
theme(plot.title = element_text(hjust = 0.5))
ggplot(kopi, aes(x = reorder(State, -Sales), y = Sales, fill = Product)) +
geom_col() +
scale_fill_manual(values = c(
"Colombian" = "bisque3",
"Decaf Irish Cream" = "bisque4",
"Amaretto" = "bisque"
)) +
labs(title = "Total Sales per Negara Bagian",
x = "Negara Bagian",
y = "Nilai Penjualan",
fill = "Produk") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1),
plot.title = element_text(hjust = 0.5))
Bedasarkan kedua grafik, menunjukan bahwa produk Colombian mendominasi volume penjualan di hampir seluruh wilayah sedangkan Amaretto memiliki volume penjualan yang sedikit serta tidak semua wilayah menjualnya. Dan California memiliki angka penjualan yang sangat tinggi dibandingkan dengan wilayah lainnya.
# Visualisasi 2: Hubungan Marketing vs Sales
ggplot(kopi, aes(x = Marketing, y = Sales)) +
geom_point(aes(color = Product), size = 3) +
geom_smooth(method = "lm", se = FALSE, color = "black", linetype = "dashed") +
labs(title = "Hubungan Biaya Marketing terhadap Penjualan",
x = "Biaya Marketing",
y = "Total Sales") +
theme_light()+
theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using formula = 'y ~ x'
Dari grafik, titik-titik data yang cenderung mendekati garis regresi menunjukkan bahwa hubungan antara kedua variabel ini cukup stabil.Terdapat tren positif yang berarti semakin besar biaya pemasaran yang dikeluarkan cenderung semakin tinggi pula penjualan yang dihasilkan.
korelasi <- cor.test(kopi$Marketing, kopi$Sales)
korelasi
##
## Pearson's product-moment correlation
##
## data: kopi$Marketing and kopi$Sales
## t = 36.719, df = 1054, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7214450 0.7744897
## sample estimates:
## cor
## 0.749166
H0 : Tidak terdapat hubungan yang signifikan antara biaya Marketing dengan Sales H1 : Terdapat hubungan yang signifikan antara biaya Marketing dengan Sales
p-value < 0,05, maka menolak H0. Artinya, secara statistik terdapat hubungan yang nyata antara biaya yang dikeluarkan untuk pemasaran dengan hasil penjualan yang didapatkan
# Regresi Liniar
cek <- lm(Sales ~ Marketing, data = kopi)
summary(cek)
##
## Call:
## lm(formula = Sales ~ Marketing, data = kopi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -316.28 -27.09 -6.37 26.81 529.84
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 53.4462 5.3599 9.972 <2e-16 ***
## Marketing 4.8070 0.1309 36.719 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 110.8 on 1054 degrees of freedom
## Multiple R-squared: 0.5612, Adjusted R-squared: 0.5608
## F-statistic: 1348 on 1 and 1054 DF, p-value: < 2.2e-16
Nilai koefisien variabel Marketing yang positif menunjukkan adanya pengaruh signifikan terhadap Sales. Hal ini memvalidasi insight bahwa investasi pada marketing memberikan dampak nyata pada pendapatan.
Berdasarkan seluruh tahapan analisis data Coffee Chain yang telah dilakukan, dapat ditarik beberapa kesimpulan: 1. Produk Colombian merupakan varian kopi yang paling sering muncul dalam transaksi dan memberikan kontribusi volume penjualan terbesar di berbagai wilayah. 2. Terdapat hubungan positif yang kuat antara biaya pemasaran dan total penjualan.