Dalam analisis ini, kami mengeksplorasi hubungan antara biaya marketing dan sales dalam dataset Coffechain. Dengan melakukan eksplorasi data dapat diketahui bagaimana tipe datanya baik head, tail, dim, dll. Dengan visualisai dapat divisualkan bagaimana datanya. Dengan dilakukan Korelasi dan Regresi dapat diketahui apakah keduanya berhubungan dan apakah Marketing mempengaruhi Sales.
library(readxl)
data_sim <- read_xlsx("C:/Users/HYPE R Series/Documents/KOMSTAT/SIM/1. Tugas SIM 2025B - Coffee Chain Datasets.xlsx")
Menampilkan 6 data pertama dari dataset.
head(data_sim)
## # A tibble: 6 × 20
## `Area Code` Date Market `Market Size` Product `Product Line`
## <dbl> <dttm> <chr> <chr> <chr> <chr>
## 1 719 2012-01-01 00:00:00 Central Major Market Amaretto Beans
## 2 970 2012-01-01 00:00:00 Central Major Market Colombian Beans
## 3 970 2012-01-01 00:00:00 Central Major Market Decaf Ir… Beans
## 4 303 2012-01-01 00:00:00 Central Major Market Green Tea Leaves
## 5 303 2012-01-01 00:00:00 Central Major Market Caffe Mo… Beans
## 6 720 2012-01-01 00:00:00 Central Major Market Decaf Es… Beans
## # ℹ 14 more variables: `Product Type` <chr>, State <chr>, Type <chr>,
## # `Budget COGS` <dbl>, `Budget Margin` <dbl>, `Budget Profit` <dbl>,
## # `Budget Sales` <dbl>, COGS <dbl>, Inventory <dbl>, Margin <dbl>,
## # Marketing <dbl>, Profit <dbl>, Sales <dbl>, `Total Expenses` <dbl>
Menampilkan 6 data terakhir dari dataset.
tail(data_sim)
## # A tibble: 6 × 20
## `Area Code` Date Market `Market Size` Product `Product Line`
## <dbl> <dttm> <chr> <chr> <chr> <chr>
## 1 425 2013-12-01 00:00:00 West Small Market Lemon Leaves
## 2 206 2013-12-01 00:00:00 West Small Market Caffe Lat… Beans
## 3 509 2013-12-01 00:00:00 West Small Market Caffe Moc… Beans
## 4 360 2013-12-01 00:00:00 West Small Market Decaf Esp… Beans
## 5 360 2013-12-01 00:00:00 West Small Market Colombian Beans
## 6 206 2013-12-01 00:00:00 West Small Market Decaf Iri… Beans
## # ℹ 14 more variables: `Product Type` <chr>, State <chr>, Type <chr>,
## # `Budget COGS` <dbl>, `Budget Margin` <dbl>, `Budget Profit` <dbl>,
## # `Budget Sales` <dbl>, COGS <dbl>, Inventory <dbl>, Margin <dbl>,
## # Marketing <dbl>, Profit <dbl>, Sales <dbl>, `Total Expenses` <dbl>
Menampilkan struktur dataset, termasuk tipe data dan jumlah observasi untuk setiap variabel.
str(data_sim)
## tibble [4,248 × 20] (S3: tbl_df/tbl/data.frame)
## $ Area Code : num [1:4248] 719 970 970 303 303 720 970 719 970 719 ...
## $ Date : POSIXct[1:4248], format: "2012-01-01" "2012-01-01" ...
## $ Market : chr [1:4248] "Central" "Central" "Central" "Central" ...
## $ Market Size : chr [1:4248] "Major Market" "Major Market" "Major Market" "Major Market" ...
## $ Product : chr [1:4248] "Amaretto" "Colombian" "Decaf Irish Cream" "Green Tea" ...
## $ Product Line : chr [1:4248] "Beans" "Beans" "Beans" "Leaves" ...
## $ Product Type : chr [1:4248] "Coffee" "Coffee" "Coffee" "Tea" ...
## $ State : chr [1:4248] "Colorado" "Colorado" "Colorado" "Colorado" ...
## $ Type : chr [1:4248] "Regular" "Regular" "Decaf" "Regular" ...
## $ Budget COGS : num [1:4248] 90 80 100 30 60 80 140 50 50 40 ...
## $ Budget Margin : num [1:4248] 130 110 140 50 90 130 160 80 70 70 ...
## $ Budget Profit : num [1:4248] 100 80 110 30 70 80 110 20 40 20 ...
## $ Budget Sales : num [1:4248] 220 190 240 80 150 210 300 130 120 110 ...
## $ COGS : num [1:4248] 89 83 95 44 54 72 170 63 60 58 ...
## $ Inventory : num [1:4248] 777 623 821 623 456 ...
## $ Margin : num [1:4248] 130 107 139 56 80 108 171 87 80 72 ...
## $ Marketing : num [1:4248] 24 27 26 14 15 23 47 57 19 22 ...
## $ Profit : num [1:4248] 94 68 101 30 54 53 99 0 33 17 ...
## $ Sales : num [1:4248] 219 190 234 100 134 180 341 150 140 130 ...
## $ Total Expenses: num [1:4248] 36 39 38 26 26 55 72 87 47 55 ...
Menampilkan dimensi dataset, yaitu jumlah baris (observasi) dan kolom (variabel)
dim(data_sim)
## [1] 4248 20
Menampilkan ringkasan statistik tiap variabel, baik mean, median, min, dll
summary(data_sim)
## Area Code Date Market
## Min. :203.0 Min. :2012-01-01 00:00:00 Length:4248
## 1st Qu.:417.0 1st Qu.:2012-06-23 12:00:00 Class :character
## Median :573.0 Median :2012-12-16 12:00:00 Mode :character
## Mean :582.3 Mean :2012-12-15 22:00:00
## 3rd Qu.:772.0 3rd Qu.:2013-06-08 12:00:00
## Max. :985.0 Max. :2013-12-01 00:00:00
## Market Size Product Product Line Product Type
## Length:4248 Length:4248 Length:4248 Length:4248
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## State Type Budget COGS Budget Margin
## Length:4248 Length:4248 Min. : 0.00 Min. :-210.0
## Class :character Class :character 1st Qu.: 30.00 1st Qu.: 50.0
## Mode :character Mode :character Median : 50.00 Median : 70.0
## Mean : 74.83 Mean : 100.8
## 3rd Qu.: 90.00 3rd Qu.: 130.0
## Max. :450.00 Max. : 690.0
## Budget Profit Budget Sales COGS Inventory
## Min. :-320.00 Min. : 0.0 Min. : 0.00 Min. :-3534.0
## 1st Qu.: 20.00 1st Qu.: 80.0 1st Qu.: 43.00 1st Qu.: 432.0
## Median : 40.00 Median : 130.0 Median : 60.00 Median : 619.0
## Mean : 60.91 Mean : 175.6 Mean : 84.43 Mean : 749.4
## 3rd Qu.: 80.00 3rd Qu.: 210.0 3rd Qu.:100.00 3rd Qu.: 910.5
## Max. : 560.00 Max. :1140.0 Max. :364.00 Max. : 8252.0
## Margin Marketing Profit Sales
## Min. :-302.00 Min. : 0.00 Min. :-638.0 Min. : 17
## 1st Qu.: 52.75 1st Qu.: 13.00 1st Qu.: 17.0 1st Qu.:100
## Median : 76.00 Median : 22.00 Median : 40.0 Median :138
## Mean : 104.29 Mean : 31.19 Mean : 61.1 Mean :193
## 3rd Qu.: 132.00 3rd Qu.: 39.00 3rd Qu.: 92.0 3rd Qu.:230
## Max. : 613.00 Max. :156.00 Max. : 778.0 Max. :912
## Total Expenses
## Min. : 10.00
## 1st Qu.: 33.00
## Median : 46.00
## Mean : 54.06
## 3rd Qu.: 65.00
## Max. :190.00
hist(data_sim$Marketing,
main = "Histogram Marketing",
xlab = "Nilai Marketing",
col = "blue",
border = "black")
Interpretasi: Histogram Marketing menunjukkan distribusi biaya marketing dalam dataset. Jika histogram miring ke kanan, berarti sebagian besar biaya marketing berada nilai rendah, sedangkan jika miring ke kiri, berarti sebagian besar biaya marketing berada nilai tinggi. Jika histogram simetris, berarti biaya marketing tersebar merata di sekitar rata-rata.
hist(data_sim$Sales,
main = "Histogram Sales",
xlab = "Nilai Sales",
col = "maroon",
border = "black")
Interpretasi: Histogram Sales menunjukkan distribusi total sales dalam dataset. Jika histogram miring ke kanan berarti sebagian besar total sales berada nilai rendah, sedangkan jika miring ke kiri, berarti sebagian besar total sales berada nilai tinggi. Jika histogram simetris, berarti total sales tersebar merata di sekitar rata-rata.
library(ggplot2)
ggplot(data_sim, aes(x = Marketing, y = Sales)) +
geom_point(alpha = 0.5, color = "black") +
geom_smooth(method = "lm", color = "blue") +
theme_light() +
labs(
title = "Sebaran Data Marketing vs Sales",
subtitle = "Titik yang jauh dari garis biru mengindikasikan outlier pada model",
x = "Biaya Marketing",
y = "Total Sales"
)
## `geom_smooth()` using formula = 'y ~ x'
Interpretasi: Scatter plot Marketing vs Sales menunjukkan hubungan antara biaya marketing dan total sales. Jika titik tampak menyebar ke atas dari kiri ke kanan, berarti ada hubungan positif antara biaya marketing dan total sales. Jika titik tampak menyebar ke bawah dari kiri ke kanan, berarti ada hubungan negatif antara biaya marketing dan total sales. Jika titik tampak acak tanpa pola yang jelas, berarti tidak ada hubungan yang kuat antara biaya marketing dan total sales. Titik yang jauh dari garis biru mengindikasikan adanya outlier pada model, yang dapat mempengaruhi hasil analisis korelasi dan regresi.
Hipotesis: * H0 : Tidak ada hubungan signifikan antara Marketing dan Sales * H1 : Ada hubungan signifikan antara Marketing dan Sales
Hipotesis: * H0 : Marketing tidak berpengaruh signifikan terhadap Sales * H1 : Marketing berpengaruh signifikan terhadap Sales
cor.test(data_sim$Marketing, data_sim$Sales)
##
## Pearson's product-moment correlation
##
## data: data_sim$Marketing and data_sim$Sales
## t = 65.794, df = 4246, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6952985 0.7250946
## sample estimates:
## cor
## 0.7105149
Karena p-value < 0.05 dan rho tidak sama dengan 0, maka kita tolak H0 dan menerima H1. Ini menunjukkan ada hubungan signifikan antara Marketing dan Sales dalam dataset Coffechain. Nilai rho positif menunjukkan bahwa hubungan antara Marketing dan Sales adalah positif, artinya peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales.
model <- lm(Sales~Marketing, data=data_sim)
summary(model)
##
## Call:
## lm(formula = Sales ~ Marketing, data = data_sim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -611.96 -34.91 -9.75 41.64 528.38
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 69.0676 2.4921 27.71 <2e-16 ***
## Marketing 3.9737 0.0604 65.79 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 106.4 on 4246 degrees of freedom
## Multiple R-squared: 0.5048, Adjusted R-squared: 0.5047
## F-statistic: 4329 on 1 and 4246 DF, p-value: < 2.2e-16
Karena Pr(>/t/) < 0.05 dan r-squared > 0, maka kita tolak H0 dan menerima H1. Ini menunjukkan bahwa Marketing mempengaruhi Sales secara signifikan. Nilai koefisien positif menunjukkan bahwa peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales, yang mengindikasikan hubungan positif antara kedua variabel tersebut.
ggplot(data_sim, aes(x = Marketing, y = Sales)) +
geom_point(alpha = 0.5, color = "black") +
geom_smooth(method = "lm", color = "blue") +
theme_light() +
labs(
title = "Regresi Linear Marketing vs Sales",
subtitle = "Garis biru menunjukkan tren hubungan antara Marketing dan Sales",
x = "Biaya Marketing",
y = "Total Sales"
)
## `geom_smooth()` using formula = 'y ~ x'
Visualisasi regresi linear menunjukkan tren hubungan antara Marketing dan Sales. Garis biru menunjukkan arah dan kekuatan hubungan antara kedua variabel. Jika garis miring ke atas, berarti ada hubungan positif antara Marketing dan Sales, yang berarti peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales. Jika garis miring ke bawah, berarti ada hubungan negatif antara Marketing dan Sales, yang berarti peningkatan biaya marketing cenderung diikuti oleh penurunan total sales. Jika garis tampak datar, berarti tidak ada hubungan yang kuat antara Marketing dan Sales. Garis biru yang jelas menunjukkan bahwa model regresi linear cukup baik dalam menjelaskan hubungan antara Marketing dan Sales, meskipun perlu diperhatikan adanya titik-titik yang jauh dari garis, yang dapat menunjukkan adanya outlier atau variasi yang tidak dijelaskan oleh model.