Pendahuluan

Analisis regresi linear sederhana adalah metode statistik yang digunakan untuk memprediksi hubungan antara satu variabel independen (X) dan satu variabel dependen (Y). Pada analisis regresi suatu variabel yang mempengaruhi disebut variabel bebas atau independent variable, sedangkan variabel yang dipengaruhi disebut variabel terkait atau dependent variable. Pada regresi sederhana kita dapat mengetahui berapa besar perubahan dari variabel bebas dapat mempengaruhi suatu variabel terkait.

Analisis regresi juga dapat digunakan untuk memahami variabel-variabel bebas mana saja yang dapat berhubungan dengan variabel terikat, serta untuk mengetahui bentuk hubungan tersebut. Tujuan analisis regresi untuk mendapatkan pola hubungan secara matematis dari variabel X dan variabel Y, dan untuk mengetahui besarnya perubahan variabel X terhadap variabel Y, serta untuk memprediksi variabel Y jika nilai variabel X diketahui. Prinsip dasar pada persamaan regresi sederhana adalah bahwa antara variabel dependen (Y) dengan variabel independennya (Y) harus memiliki sifat hubungan sebab akibat atau hubungan kausalitas, berdasarkan teori, dari hasil penelitian sebelumnya, atau juga yang didasarkan dari penjelasan logis tertentu.

Analisis regresi linier sederhana adalah hubungan secara linear antara satu variabel independen (X) dengan variabel dependen (Y). Analisis regresi sederhana dapat digunakan untuk mengetahui arah dari hubungan antara variabel bebas dengan variabel terikat, apakah memiliki hubungan positif atau negatif serta untuk memprediksi nilai dari variabel terikat apabila nilai variabel bebas mengalami kenaikan ataupun penurunan. Model regresi sederhana dapat ditunjukkan pada persamaan berikut: \[Y =\beta_0 + \beta_1 X + \epsilon\] dengan Y adalah variabel dependen, \(X\) adalah variabel independen, dan \(\epsilon\) adalah sesatan atau error

Deskripsi Data

Pemasaran adalah semua cara yang dilakukan untuk membuat orang tertarik dan ingin membeli produk, misalnya dengan membuat iklan di media sosial dengan tujuan banyak yang tertarik untuk membeli produk. Penjualan adalah proses menjual produk atau jasa secara langsung kepada pelanggan dengan tujuan menghasilkan transaksi dan pendapatan. Semakin banyak yang mmengetahui produk kita yang dijual maka akan semakin besar peluang yang membeli produk kita. Jadi, semakin banyak pemasaran maka penjualan dapat meningkat.

Data yang digunakan dalam analisis ini adalah data yang telah dipilih sesuai kebutuhan analisis. variabel yang digunakan adalah Variabel Independen: Pemasaran dan Variabel Dependen: Penjualan.

# Package yang diperlukan
library(readr)
library(readxl)
library(car)
library(lmtest)
library(ggplot2)
library(knitr)
library(markdown)
library(rmarkdown)
# Menampilkan Data
Wisconsin <- read_excel("D:/SEMESTER 4/SIM/State Coffe Chain.xlsx", sheet = "Wisconsin")
Wisconsin
## # A tibble: 108 × 2
##        X     Y
##    <dbl> <dbl>
##  1    20   120
##  2    72   190
##  3    25   180
##  4    68   180
##  5    15   110
##  6    21   150
##  7    20   180
##  8     9    81
##  9    19   150
## 10    20   118
## # ℹ 98 more rows

Scatterplot Y dengan X

ggplot(Wisconsin, aes(x = X, y = Y)) +
  geom_point(color="#957dad") +
  labs(x = "X", y = "Y", title = "Scatterplot of Y vs X")

Scatterplot tersebut menunjukkan adanya hubungan positif antara variabel X dan Y, di mana secara umum nilai Y meningkat seiring dengan peningkatan nilai X. Namun, pola data tidak sepenuhnya linear dan terlihat terbagi dalam beberapa kelompok yang terpisah, yang menunjukkan kemungkinan adanya kategori atau segmen data yang berbeda. Setiap kelompok menunjukkan pola peningkatan tersendiri, dengan beberapa kelompok memiliki sebaran data yang lebih rapat dan lainnya lebih tersebar.

Uji Signifikansi

Uji signifikansi adalah langkah untuk mengetahui apakah variabel-variabel dalam model regresi berpengaruh secara statistik terhadap variabel yang ingin diprediksi (variabel dependen). Ada dua jenis uji signifikansi yaitu uji simultan untuk menguji apakah seluruh variabel independen secara bersama-sama berpengaruh terhadap Y dan uji parsial untuk menguji apakah setiap koefisien regresi secara individu berpengaruh signifikan terhadap variabel Y.

Uji F (Simultan)

  1. Hipotesis:
  2. \(H_0\): Variabel independen secara simultan tidak berpengaruh signifikan terhadap penjualan

    \(H_1\): Minimal terdapat satu variabel independen yang berpengaruh signifikan terhadap penjualan

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. model <- lm(Y ~ X, data = Wisconsin)
    summary(model)
    ## 
    ## Call:
    ## lm(formula = Y ~ X, data = Wisconsin)
    ## 
    ## Residuals:
    ##    Min     1Q Median     3Q    Max 
    ## -63.91 -17.12  -5.20  21.89  78.71 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept) 104.4441     4.8831   21.39   <2e-16 ***
    ## X             1.4951     0.1238   12.08   <2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 32.44 on 106 degrees of freedom
    ## Multiple R-squared:  0.5792, Adjusted R-squared:  0.5752 
    ## F-statistic: 145.9 on 1 and 106 DF,  p-value: < 2.2e-16
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= <2,2×10^-16\) \(<0,05\) maka \(H_0\) ditolak. Artinya setidaknya terdapat satu variabel independen berpengaruh signifikan terhadap penjualan sehingga model layak digunakan..

Uji T (Parsial)

  1. Hipotesis:
  2. \(H_0\): Variabel pemasaran tidak berpengaruh signifikan terhadap penjualan

    \(H_1\): Variabel pemasaran berpengaruh signifikan terhadap penjualan.

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. summary(model)
    ## 
    ## Call:
    ## lm(formula = Y ~ X, data = Wisconsin)
    ## 
    ## Residuals:
    ##    Min     1Q Median     3Q    Max 
    ## -63.91 -17.12  -5.20  21.89  78.71 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept) 104.4441     4.8831   21.39   <2e-16 ***
    ## X             1.4951     0.1238   12.08   <2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 32.44 on 106 degrees of freedom
    ## Multiple R-squared:  0.5792, Adjusted R-squared:  0.5752 
    ## F-statistic: 145.9 on 1 and 106 DF,  p-value: < 2.2e-16
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= <2,2×10^-16\) \(<0,05\) maka \(H_0\) ditolak. Artinya variabel pemasaran berpengaruh signifikan terhadap penjualan.

Uji Asumsi

Uji asumsi klasik bertujuan untuk memastikan bahwa model regresi yang dibangun valid dan dapat diandalkan. Jika asumsi klasik terpenuhi, maka hasil estimasi koefisien regresi akan bersifat BLUE (Best Linear Unbiased Estimator). Berikut adalah jenis uji asumsi klasik yang dilakukan.

Uji Normalitas Residu

  1. Hipotesis:
  2. \(H_0\): Data residual model berdistribusi normal

    \(H_1\): Data residual model tidak berdistribusi normal

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. # Asumsi normalitas menggunakan Shapiro Walk
    model <- lm(Y ~ X, data = Wisconsin)
    shapiro.test(model$residuals)
    ## 
    ##  Shapiro-Wilk normality test
    ## 
    ## data:  model$residuals
    ## W = 0.98121, p-value = 0.131
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,131\) \(>0,05\) maka \(H_0\) diterima. Artinya residual model berdistribusi normal.

Uji Linearitas

  1. Hipotesis:
  2. \(H_0\): Model regresi sederhana memenuhi asumsi linearitasl

    \(H_1\): Model regresi sederhana tidak memenuhi asumsi linearitas

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. # Asumsi Linearitas menggunakan Ramsey RESET
    model <- lm(Y ~ X, data = Wisconsin)
    ramsey_test <- resettest(model, power = 2)
    ramsey_test
    ## 
    ##  RESET test
    ## 
    ## data:  model
    ## RESET = 0.63355, df1 = 1, df2 = 105, p-value = 0.4279
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,4279\) \(>0,05\) maka \(H_0\) diterima. Artinya model regresi ini memenuhi asumsi normalitas.

Uji Homogenitas

  1. Hipotesis:
  2. \(H_0\): Variansi residual konstan (homoskedastisitas terpenuhi)

    \(H_1\): Variansi residual tidak konstan (heteroskedastisitas terpenuhi)

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. # Asumsi Homogenitas menggunakan Breusch-Pagan
    model <- lm(Y ~ X, data = Wisconsin)
    bptest(model)
    ## 
    ##  studentized Breusch-Pagan test
    ## 
    ## data:  model
    ## BP = 0.11499, df = 1, p-value = 0.7345
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,7345\) \(>0,05\) maka \(H_0\) diterima. Artinya variansi residualnya konstan atau homoskedastisitas terpenuhi.

Uji Non Autokorelasi

  1. Hipotesis:
  2. \(H_0\): Tidak terdapat autokorelasi antarresidual

    \(H_1\): Terdapat autokorelasi pada residual

  3. Taraf Signifikansi:
  4. α = 5% = 0,05

  5. Daerah Kritis:
  6. \(H_0\) ditolak jika p-value < \(\alpha\)

  7. Statistik Uji:
  8. # Asumsi Nonautokorelasi menggunakan uji Durbin Watson
    model <- lm(Y ~ X, data = Wisconsin)
    dwtest(model)
    ## 
    ##  Durbin-Watson test
    ## 
    ## data:  model
    ## DW = 2.3161, p-value = 0.9517
    ## alternative hypothesis: true autocorrelation is greater than 0
  9. Kesimpulan:
  10. Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,9517\) \(>0,05\) maka \(H_0\) diterima. Artinya data yang dimiliki tidak terdapat autokorelasi.

Kesimpulan Uji Asumsi

Uji Asumsi Keterangan
Linearitas Memenuhi
Normalitas Residu Memenuhi
Homogenitas Memenuhi
Non Autokorelasi Memenuhi

Model Regresi Sederhana

# Membuat persamaan regresi linear sederhana
model <- lm(Y ~ X, data = Wisconsin)
model
## 
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
## 
## Coefficients:
## (Intercept)            X  
##     104.444        1.495
summary(model)
## 
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -63.91 -17.12  -5.20  21.89  78.71 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 104.4441     4.8831   21.39   <2e-16 ***
## X             1.4951     0.1238   12.08   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 32.44 on 106 degrees of freedom
## Multiple R-squared:  0.5792, Adjusted R-squared:  0.5752 
## F-statistic: 145.9 on 1 and 106 DF,  p-value: < 2.2e-16

Dari analisis regresi sederhana diatas diapatkan persamaan regresi sebagai berikut:\[\widehat{Y} = 104,4441 + 1,4951X\] Berdasarkan persamaan tersebut, nilai \(Y\) akan konstan pada \(104,4441\) jika semua variabel bebasnya bernilai nol. Untuk setiap kenaikan 1 satuan pada \(X\), nilai \(Y\) diprediksi akan meningkat sebesar \(1,4951\) satuan. Dari hasil tersebut juga dapat dilihat bahwa model memiliki nilai residual standar error sebesar \(32,44\) menunjukkan rata-rata besar kesalahan (error) antara nilai Y aktual dengan nilai Y prediksi dari model regresi.

Selain itu, model memiliki R-squared Adjusted sebesar \(0,5752\) atau \(57,52\%\) . Artinya, sekitar \(57,52\%\) variasi pada variabel \(Y\) dapat dijelaskan oleh variasi pada variabel \(X\) dalam model yang digunakan. Sisanya, yaitu sekitar \(42,48\%\), dijelaskan oleh faktor lain di luar model (error atau variabel lain yang tidak dimasukkan dalam model). Model sudah cukup baik dalam menjelaskan variasi data namun masih bisa ditingkatkan, misalnya dengan menambah variabel lain yang relevan.

Kesimpulan

  • Berdasarkan hasil analisis regresi linear sederhana antara variabel pemasaran (\(X\)) terhadap penjualan (\(Y\)), diperoleh persamaan model regresi adalah \(\widehat{Y} = 104,4441 + 1,4951X\). Artinya, nilai penjualan akan konstan pada \(104,4441\) jika nilai pemasaran bernilai nol. Untuk setiap kenaikan 1 satuan pada pemasaran, nilai penjualan diprediksi akan meningkat sebesar \(1,4951\) satuan. Nilai koefisien \(X\) (Pemasaran) signifikan secara statistik yang berarti bahwa pemasaran memiliki pengaruh positif dan signifikan terhadap penjualan. Hasil uji F juga menunjukkan bahwa model regresi secara keseluruhan signifikan, sehingga model layak digunakan untuk memprediksi data penjualan.
  • Nilai R-squared Adjusted sebesar \(0,5752\) menunjukkan bahwa sekitar \(57,52\%\) variasi pada data penjualan dapat dijelaskan oleh variabel pemasaran, sedangkan \(42,48\%\) dipengaruhi oleh faktor lain di luar model, sehingga pengembangan model lebih lanjut tetap dapat dipertimbangkan.
  • Dengan asumsi-asumsi klasik telah terpenuhi yaitu linearitas, normalitas residual, homoskedastisitas, non autokorelasi maka hasil estimasi koefisien regresi dapat dipercaya dan tidak bias, serta inferensi statistik yang diambil dapat dipertanggungjawabkan. Oleh karena itu, dapat disimpulkan bahwa model regresi ini valid dan dapat digunakan untuk melakukan prediksi serta analisis hubungan antara data pemasaran dan data penjualan Coffe Chain di negara Wisconsin dengan baik.