R Markdown

Insight

Dalam analisis ini, kami mengeksplorasi hubungan antara biaya marketing dan sales dalam dataset Coffechain. Dengan melakukan eksplorasi data dapat diketahui bagaimana tipe datanya baik head, tail, dim, dll. Dengan visualisai dapat divisualkan bagaimana datanya. Dengan dilakukan Korelasi dan Regresi dapat diketahui apakah keduanya berhubungan dan apakah Marketing mempengaruhi Sales.

Import

library(readxl)
data_sim <- read_xlsx("C:/Users/HYPE R Series/Documents/KOMSTAT/SIM/1. Tugas SIM 2025B - Coffee Chain Datasets.xlsx")

Eksplorasi

Tail

Menampilkan 6 data terakhir dari dataset.

tail(data_sim)
## # A tibble: 6 × 20
##   `Area Code` Date                Market `Market Size` Product    `Product Line`
##         <dbl> <dttm>              <chr>  <chr>         <chr>      <chr>         
## 1         425 2013-12-01 00:00:00 West   Small Market  Lemon      Leaves        
## 2         206 2013-12-01 00:00:00 West   Small Market  Caffe Lat… Beans         
## 3         509 2013-12-01 00:00:00 West   Small Market  Caffe Moc… Beans         
## 4         360 2013-12-01 00:00:00 West   Small Market  Decaf Esp… Beans         
## 5         360 2013-12-01 00:00:00 West   Small Market  Colombian  Beans         
## 6         206 2013-12-01 00:00:00 West   Small Market  Decaf Iri… Beans         
## # ℹ 14 more variables: `Product Type` <chr>, State <chr>, Type <chr>,
## #   `Budget COGS` <dbl>, `Budget Margin` <dbl>, `Budget Profit` <dbl>,
## #   `Budget Sales` <dbl>, COGS <dbl>, Inventory <dbl>, Margin <dbl>,
## #   Marketing <dbl>, Profit <dbl>, Sales <dbl>, `Total Expenses` <dbl>
STR

Menampilkan struktur dataset, termasuk tipe data dan jumlah observasi untuk setiap variabel.

str(data_sim)
## tibble [4,248 × 20] (S3: tbl_df/tbl/data.frame)
##  $ Area Code     : num [1:4248] 719 970 970 303 303 720 970 719 970 719 ...
##  $ Date          : POSIXct[1:4248], format: "2012-01-01" "2012-01-01" ...
##  $ Market        : chr [1:4248] "Central" "Central" "Central" "Central" ...
##  $ Market Size   : chr [1:4248] "Major Market" "Major Market" "Major Market" "Major Market" ...
##  $ Product       : chr [1:4248] "Amaretto" "Colombian" "Decaf Irish Cream" "Green Tea" ...
##  $ Product Line  : chr [1:4248] "Beans" "Beans" "Beans" "Leaves" ...
##  $ Product Type  : chr [1:4248] "Coffee" "Coffee" "Coffee" "Tea" ...
##  $ State         : chr [1:4248] "Colorado" "Colorado" "Colorado" "Colorado" ...
##  $ Type          : chr [1:4248] "Regular" "Regular" "Decaf" "Regular" ...
##  $ Budget COGS   : num [1:4248] 90 80 100 30 60 80 140 50 50 40 ...
##  $ Budget Margin : num [1:4248] 130 110 140 50 90 130 160 80 70 70 ...
##  $ Budget Profit : num [1:4248] 100 80 110 30 70 80 110 20 40 20 ...
##  $ Budget Sales  : num [1:4248] 220 190 240 80 150 210 300 130 120 110 ...
##  $ COGS          : num [1:4248] 89 83 95 44 54 72 170 63 60 58 ...
##  $ Inventory     : num [1:4248] 777 623 821 623 456 ...
##  $ Margin        : num [1:4248] 130 107 139 56 80 108 171 87 80 72 ...
##  $ Marketing     : num [1:4248] 24 27 26 14 15 23 47 57 19 22 ...
##  $ Profit        : num [1:4248] 94 68 101 30 54 53 99 0 33 17 ...
##  $ Sales         : num [1:4248] 219 190 234 100 134 180 341 150 140 130 ...
##  $ Total Expenses: num [1:4248] 36 39 38 26 26 55 72 87 47 55 ...
DIM

Menampilkan dimensi dataset, yaitu jumlah baris (observasi) dan kolom (variabel)

dim(data_sim)
## [1] 4248   20
Summary

Menampilkan ringkasan statistik tiap variabel, baik mean, median, min, dll

summary(data_sim)
##    Area Code          Date                        Market         
##  Min.   :203.0   Min.   :2012-01-01 00:00:00   Length:4248       
##  1st Qu.:417.0   1st Qu.:2012-06-23 12:00:00   Class :character  
##  Median :573.0   Median :2012-12-16 12:00:00   Mode  :character  
##  Mean   :582.3   Mean   :2012-12-15 22:00:00                     
##  3rd Qu.:772.0   3rd Qu.:2013-06-08 12:00:00                     
##  Max.   :985.0   Max.   :2013-12-01 00:00:00                     
##  Market Size          Product          Product Line       Product Type      
##  Length:4248        Length:4248        Length:4248        Length:4248       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     State               Type            Budget COGS     Budget Margin   
##  Length:4248        Length:4248        Min.   :  0.00   Min.   :-210.0  
##  Class :character   Class :character   1st Qu.: 30.00   1st Qu.:  50.0  
##  Mode  :character   Mode  :character   Median : 50.00   Median :  70.0  
##                                        Mean   : 74.83   Mean   : 100.8  
##                                        3rd Qu.: 90.00   3rd Qu.: 130.0  
##                                        Max.   :450.00   Max.   : 690.0  
##  Budget Profit      Budget Sales         COGS          Inventory      
##  Min.   :-320.00   Min.   :   0.0   Min.   :  0.00   Min.   :-3534.0  
##  1st Qu.:  20.00   1st Qu.:  80.0   1st Qu.: 43.00   1st Qu.:  432.0  
##  Median :  40.00   Median : 130.0   Median : 60.00   Median :  619.0  
##  Mean   :  60.91   Mean   : 175.6   Mean   : 84.43   Mean   :  749.4  
##  3rd Qu.:  80.00   3rd Qu.: 210.0   3rd Qu.:100.00   3rd Qu.:  910.5  
##  Max.   : 560.00   Max.   :1140.0   Max.   :364.00   Max.   : 8252.0  
##      Margin          Marketing          Profit           Sales    
##  Min.   :-302.00   Min.   :  0.00   Min.   :-638.0   Min.   : 17  
##  1st Qu.:  52.75   1st Qu.: 13.00   1st Qu.:  17.0   1st Qu.:100  
##  Median :  76.00   Median : 22.00   Median :  40.0   Median :138  
##  Mean   : 104.29   Mean   : 31.19   Mean   :  61.1   Mean   :193  
##  3rd Qu.: 132.00   3rd Qu.: 39.00   3rd Qu.:  92.0   3rd Qu.:230  
##  Max.   : 613.00   Max.   :156.00   Max.   : 778.0   Max.   :912  
##  Total Expenses  
##  Min.   : 10.00  
##  1st Qu.: 33.00  
##  Median : 46.00  
##  Mean   : 54.06  
##  3rd Qu.: 65.00  
##  Max.   :190.00

Visualisasi

Histogram Marketing

hist(data_sim$Marketing,
     main = "Histogram Marketing",
     xlab = "Nilai Marketing",
     col = "blue",
     border = "black")

Interpretasi Visualisasi Histogram Marketing

Interpretasi: Histogram Marketing menunjukkan distribusi biaya marketing dalam dataset. Jika histogram miring ke kanan, berarti sebagian besar biaya marketing berada nilai rendah, sedangkan jika miring ke kiri, berarti sebagian besar biaya marketing berada nilai tinggi. Jika histogram simetris, berarti biaya marketing tersebar merata di sekitar rata-rata.

Histogram Sales

hist(data_sim$Sales,
     main = "Histogram Sales",
     xlab = "Nilai Sales",
     col = "maroon",
     border = "black")

Interpretasi Visualisasi Histogram Sales

Interpretasi: Histogram Sales menunjukkan distribusi total sales dalam dataset. Jika histogram miring ke kanan berarti sebagian besar total sales berada nilai rendah, sedangkan jika miring ke kiri, berarti sebagian besar total sales berada nilai tinggi. Jika histogram simetris, berarti total sales tersebar merata di sekitar rata-rata.

Scatter Plot Marketing dan Sales

library(ggplot2)
ggplot(data_sim, aes(x = Marketing, y = Sales)) +
  geom_point(alpha = 0.5, color = "black") +
  geom_smooth(method = "lm", color = "blue") +
  theme_light() +
  labs(
    title = "Sebaran Data Marketing vs Sales",
    subtitle = "Titik yang jauh dari garis biru mengindikasikan outlier pada model",
    x = "Biaya Marketing",
    y = "Total Sales"
  )
## `geom_smooth()` using formula = 'y ~ x'

Interpretasi Visualisasi Scatter Plot Marketing dan Sales

Interpretasi: Scatter plot Marketing vs Sales menunjukkan hubungan antara biaya marketing dan total sales. Jika titik tampak menyebar ke atas dari kiri ke kanan, berarti ada hubungan positif antara biaya marketing dan total sales. Jika titik tampak menyebar ke bawah dari kiri ke kanan, berarti ada hubungan negatif antara biaya marketing dan total sales. Jika titik tampak acak tanpa pola yang jelas, berarti tidak ada hubungan yang kuat antara biaya marketing dan total sales. Titik yang jauh dari garis biru mengindikasikan adanya outlier pada model, yang dapat mempengaruhi hasil analisis korelasi dan regresi.

Hipotesis

Analisis Korelasi Pearson

Hipotesis: * H0 : Tidak ada hubungan signifikan antara Marketing dan Sales * H1 : Ada hubungan signifikan antara Marketing dan Sales


Analisis Regresi Linear

Hipotesis: * H0 : Marketing tidak berpengaruh signifikan terhadap Sales * H1 : Marketing berpengaruh signifikan terhadap Sales

Analisis

Analisis Korelasi Pearson

cor.test(data_sim$Marketing, data_sim$Sales)
## 
##  Pearson's product-moment correlation
## 
## data:  data_sim$Marketing and data_sim$Sales
## t = 65.794, df = 4246, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6952985 0.7250946
## sample estimates:
##       cor 
## 0.7105149

Interpretasi Hasil Uji Korelasi Pearson

Karena p-value < 0.05 dan rho tidak sama dengan 0, maka kita tolak H0 dan menerima H1. Ini menunjukkan ada hubungan signifikan antara Marketing dan Sales dalam dataset Coffechain. Nilai rho positif menunjukkan bahwa hubungan antara Marketing dan Sales adalah positif, artinya peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales.

Analisis Regresi Linear

model <- lm(Sales~Marketing, data=data_sim)
summary(model)
## 
## Call:
## lm(formula = Sales ~ Marketing, data = data_sim)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -611.96  -34.91   -9.75   41.64  528.38 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  69.0676     2.4921   27.71   <2e-16 ***
## Marketing     3.9737     0.0604   65.79   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 106.4 on 4246 degrees of freedom
## Multiple R-squared:  0.5048, Adjusted R-squared:  0.5047 
## F-statistic:  4329 on 1 and 4246 DF,  p-value: < 2.2e-16

Interpretasi Hasil Uji Regresi Linear

Karena Pr(>/t/) < 0.05 dan r-squared > 0, maka kita tolak H0 dan menerima H1. Ini menunjukkan bahwa Marketing mempengaruhi Sales secara signifikan. Nilai koefisien positif menunjukkan bahwa peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales, yang mengindikasikan hubungan positif antara kedua variabel tersebut.

Visualisasi Regresi Linear

ggplot(data_sim, aes(x = Marketing, y = Sales)) +
  geom_point(alpha = 0.5, color = "black") +
  geom_smooth(method = "lm", color = "blue") +
  theme_light() +
  labs(
    title = "Regresi Linear Marketing vs Sales",
    subtitle = "Garis biru menunjukkan tren hubungan antara Marketing dan Sales",
    x = "Biaya Marketing",
    y = "Total Sales"
  )
## `geom_smooth()` using formula = 'y ~ x'

Interpretasi Visualisasi Regresi Linear

Visualisasi regresi linear menunjukkan tren hubungan antara Marketing dan Sales. Garis biru menunjukkan arah dan kekuatan hubungan antara kedua variabel. Jika garis miring ke atas, berarti ada hubungan positif antara Marketing dan Sales, yang berarti peningkatan biaya marketing cenderung diikuti oleh peningkatan total sales. Jika garis miring ke bawah, berarti ada hubungan negatif antara Marketing dan Sales, yang berarti peningkatan biaya marketing cenderung diikuti oleh penurunan total sales. Jika garis tampak datar, berarti tidak ada hubungan yang kuat antara Marketing dan Sales. Garis biru yang jelas menunjukkan bahwa model regresi linear cukup baik dalam menjelaskan hubungan antara Marketing dan Sales, meskipun perlu diperhatikan adanya titik-titik yang jauh dari garis, yang dapat menunjukkan adanya outlier atau variasi yang tidak dijelaskan oleh model.