Lakukan analisis berikut menggunakan software R:
Eksplorasi Data
Membangun Model Regresi Linier Sederhana
Uji Signifikansi Model
Lakukan uji signifikansi parameter regresi dan interpretasikan hasil
yang didapatkan.
Uji Asumsi Regresi
Lakukan dan interpretasikan uji asumsi hasil pemodelan.
Tuliskan kesimpulan dari hasil analisis regresi yang dilakukan.
Regresi linier berganda merupakan salah satu metode statistika yang digunakan untuk menganalisis hubungan antara satu variabel dependen (terikat) dengan dua atau lebih variabel independen (bebas) secara bersamaan. Menurut Gujarati dan Porter (2009), model regresi linier berganda bertujuan untuk mengestimasi seberapa besar pengaruh variabel-variabel prediktor terhadap variabel respons, serta digunakan sebagai alat prediksi nilai variabel dependen berdasarkan nilai variabel independen yang diketahui.
Persamaan umum model regresi linier berganda dinyatakan sebagai berikut:
\[\hat{Y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon\]
di mana \(\hat{Y}\) adalah nilai prediksi variabel dependen, \(\beta_0\) adalah konstanta (intercept), \(\beta_1, \beta_2, \ldots, \beta_k\) adalah koefisien regresi masing-masing variabel prediktor, \(X_1, X_2, \ldots, X_k\) adalah variabel independen, dan \(\varepsilon\) adalah error atau residual. Nilai koefisien regresi diestimasi menggunakan metode Ordinary Least Squares (OLS), yaitu dengan meminimumkan jumlah kuadrat selisih antara nilai observasi dan nilai prediksi (Draper & Smith, 1998).
Pengujian signifikansi dalam analisis regresi linier berganda dilakukan melalui dua pendekatan utama, yaitu uji simultan (Uji F) dan uji parsial (Uji t). Uji F digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama berpengaruh signifikan terhadap variabel dependen. Hipotesis pada uji F adalah \(H_0 : \beta_1 = \beta_2 = \ldots = \beta_k = 0\) melawan \(H_1\): minimal ada satu \(\beta_j \neq 0\). Apabila nilai p-value kurang dari taraf signifikansi \(\alpha = 0{,}05\), maka \(H_0\) ditolak dan disimpulkan bahwa model secara simultan signifikan (Montgomery et al., 2012).
Sementara itu, uji t digunakan untuk menguji pengaruh masing-masing variabel independen secara individual terhadap variabel dependen dengan mengendalikan variabel lain dalam model. Keputusan diambil berdasarkan perbandingan nilai p-value dengan \(\alpha = 0{,}05\). Jika p-value < 0,05 maka variabel prediktor tersebut berpengaruh signifikan terhadap variabel respons secara parsial (Hair et al., 2014). Selain itu, koefisien determinasi \(R^2\) digunakan sebagai ukuran seberapa besar variasi variabel dependen dapat dijelaskan oleh variabel-variabel prediktor dalam model.
Agar estimasi koefisien regresi dengan metode OLS bersifat BLUE (Best Linear Unbiased Estimator), perlu dipenuhi beberapa asumsi klasik yang dikenal sebagai asumsi Gauss-Markov. Pengujian asumsi ini meliputi uji normalitas residual, uji homoskedastisitas, uji autokorelasi, dan uji multikolinieritas (Gujarati & Porter, 2009).
Pertama, uji normalitas bertujuan untuk memastikan bahwa residual model berdistribusi normal. Pengujian dapat dilakukan menggunakan uji Shapiro-Wilk untuk sampel kecil hingga menengah (n < 50) dan uji Jarque-Bera untuk sampel yang lebih besar. Jika p-value > 0,05 maka asumsi normalitas terpenuhi (Razali & Wah, 2011).
Kedua, uji homoskedastisitas dilakukan untuk memastikan bahwa ragam residual bersifat konstan pada semua nilai variabel prediktor. Salah satu metode yang umum digunakan adalah uji Breusch-Pagan. Apabila nilai p-value dari uji tersebut lebih besar dari \(\alpha = 0{,}05\), maka asumsi homoskedastisitas terpenuhi (Breusch & Pagan, 1979).
Ketiga, uji autokorelasi digunakan untuk mendeteksi apakah terdapat korelasi antara residual pada satu pengamatan dengan pengamatan lainnya. Uji Durbin-Watson merupakan salah satu prosedur yang umum digunakan, di mana nilai DW mendekati 2 menunjukkan tidak adanya autokorelasi. Jika p-value < 0,05 maka disimpulkan terdapat autokorelasi positif pada residual (Durbin & Watson, 1951).
Keempat, uji multikolinieritas bertujuan untuk mendeteksi adanya korelasi tinggi antar variabel independen. Salah satu cara yang banyak digunakan adalah dengan menghitung Variance Inflation Factor (VIF). Nilai VIF yang melebihi 10 (atau 5) menunjukkan adanya masalah multikolinieritas yang perlu diatasi (O’Brien, 2007).
Dataset 50 Startups merupakan kumpulan data yang tersedia secara publik di platform Kaggle dan sering digunakan dalam pembelajaran analisis regresi. Dataset ini terdiri dari 50 observasi dengan 2 bisa dijadikan variabel prediktor, yaitu R&D Spend (biaya riset dan pengembangan) dan Marketing Spend (biaya pemasaran), serta Profit sebagai variabel dependen. Dataset ini memberikan gambaran nyata tentang bagaimana pengalokasian anggaran pada setiap divisi di perusahaan rintisan dapat memengaruhi besar kecilnya keuntungan yang diperoleh perusahaan.
Penggunaan dataset ini dalam konteks analisis regresi linier berganda memungkinkan eksplorasi hubungan antara variabel-variabel pengeluaran operasional perusahaan terhadap profit. Menurut Sievert et al. (2021), pemilihan dataset yang relevan dengan konteks dunia nyata sangat penting dalam pembelajaran statistika terapan karena membantu mahasiswa memahami interpretasi hasil analisis secara lebih bermakna dan kontekstual.
R merupakan bahasa pemrograman sekaligus sebagai komputasi statistika
yang dikembangkan oleh R Core Team dan didistribusikan secara gratis
sebagai perangkat lunak open-source. Dalam analisis regresi, R
menyediakan berbagai fungsi bawaan maupun paket tambahan yang memudahkan
proses pemodelan, pengujian asumsi, dan visualisasi data. Fungsi
lm() digunakan untuk membangun model regresi linier,
sementara summary() memberikan ringkasan hasil estimasi
koefisien beserta statistik uji yang relevan.
Beberapa paket yang digunakan dalam praktikum ini antara lain
lmtest untuk pengujian linearitas dan heteroskedastisitas
melalui fungsi resettest() dan bptest(),
car untuk perhitungan VIF menggunakan fungsi
vif(), serta tseries untuk uji normalitas
Jarque-Bera melalui jarque.bera.test(). Paket-paket
tersebut tersedia di CRAN (Comprehensive R Archive Network) dan telah
digunakan secara luas dalam penelitian statistika terapan (Zeileis &
Hothorn, 2002; Fox & Weisberg, 2019).
Berikut merupakan source code beserta penjelasan mengenai coding pada R.
> # Membaca data
> startup <- read.csv("C:/Users/WINDOWS 11/Downloads/data startup.csv")
Membaca file CSV bernama data startup.csv kemudian
menyimpannya ke dalam variabel startup.
> # Melihat data
> startup
R.D.Spend Administration Marketing.Spend State Profit
1 165349.20 136897.80 471784.10 New York 192261.83
2 162597.70 151377.59 443898.53 California 191792.06
3 153441.51 101145.55 407934.54 Florida 191050.39
4 144372.41 118671.85 383199.62 New York 182901.99
5 142107.34 91391.77 366168.42 Florida 166187.94
6 131876.90 99814.71 362861.36 New York 156991.12
7 134615.46 147198.87 127716.82 California 156122.51
8 130298.13 145530.06 323876.68 Florida 155752.60
9 120542.52 148718.95 311613.29 New York 152211.77
10 123334.88 108679.17 304981.62 California 149759.96
11 101913.08 110594.11 229160.95 Florida 146121.95
12 100671.96 91790.61 249744.55 California 144259.40
13 93863.75 127320.38 249839.44 Florida 141585.52
14 91992.39 135495.07 252664.93 California 134307.35
15 119943.24 156547.42 256512.92 Florida 132602.65
16 114523.61 122616.84 261776.23 New York 129917.04
17 78013.11 121597.55 264346.06 California 126992.93
18 94657.16 145077.58 282574.31 New York 125370.37
19 91749.16 114175.79 294919.57 Florida 124266.90
20 86419.70 153514.11 0.00 New York 122776.86
21 76253.86 113867.30 298664.47 California 118474.03
22 78389.47 153773.43 299737.29 New York 111313.02
23 73994.56 122782.75 303319.26 Florida 110352.25
24 67532.53 105751.03 304768.73 Florida 108733.99
25 77044.01 99281.34 140574.81 New York 108552.04
26 64664.71 139553.16 137962.62 California 107404.34
27 75328.87 144135.98 134050.07 Florida 105733.54
28 72107.60 127864.55 353183.81 New York 105008.31
29 66051.52 182645.56 118148.20 Florida 103282.38
30 65605.48 153032.06 107138.38 New York 101004.64
31 61994.48 115641.28 91131.24 Florida 99937.59
32 61136.38 152701.92 88218.23 New York 97483.56
33 63408.86 129219.61 46085.25 California 97427.84
34 55493.95 103057.49 214634.81 Florida 96778.92
35 46426.07 157693.92 210797.67 California 96712.80
36 46014.02 85047.44 205517.64 New York 96479.51
37 28663.76 127056.21 201126.82 Florida 90708.19
38 44069.95 51283.14 197029.42 California 89949.14
39 20229.59 65947.93 185265.10 New York 81229.06
40 38558.51 82982.09 174999.30 California 81005.76
41 28754.33 118546.05 172795.67 California 78239.91
42 27892.92 84710.77 164470.71 Florida 77798.83
43 23640.93 96189.63 148001.11 California 71498.49
44 15505.73 127382.30 35534.17 New York 69758.98
45 22177.74 154806.14 28334.72 California 65200.33
46 1000.23 124153.04 1903.93 New York 64926.08
47 1315.46 115816.21 297114.46 Florida 49490.75
48 0.00 135426.92 0.00 California 42559.73
49 542.05 51743.15 0.00 New York 35673.41
50 0.00 116983.80 45173.06 California 14681.40
Menampilkan seluruh isi dataset yang telah dibaca.
> # Struktur data
> str(startup)
'data.frame': 50 obs. of 5 variables:
$ R.D.Spend : num 165349 162598 153442 144372 142107 ...
$ Administration : num 136898 151378 101146 118672 91392 ...
$ Marketing.Spend: num 471784 443899 407935 383200 366168 ...
$ State : chr "New York" "California" "Florida" "New York" ...
$ Profit : num 192262 191792 191050 182902 166188 ...
Menampilkan struktur dataset seperti nama variabel, tipe data, dan jumlah observasi.
> # Menampilkan 6 data pertama
> head(startup)
R.D.Spend Administration Marketing.Spend State Profit
1 165349.2 136897.80 471784.1 New York 192261.8
2 162597.7 151377.59 443898.5 California 191792.1
3 153441.5 101145.55 407934.5 Florida 191050.4
4 144372.4 118671.85 383199.6 New York 182902.0
5 142107.3 91391.77 366168.4 Florida 166187.9
6 131876.9 99814.71 362861.4 New York 156991.1
Menampilkan 6 baris pertama dari dataset.
> # Statistika deskriptif
> summary(startup)
R.D.Spend Administration Marketing.Spend State
Min. : 0 Min. : 51283 Min. : 0 Length :50
1st Qu.: 39936 1st Qu.:103731 1st Qu.:129300 N.unique : 3
Median : 73051 Median :122700 Median :212716 N.blank : 0
Mean : 73722 Mean :121345 Mean :211025 Min.nchar: 7
3rd Qu.:101603 3rd Qu.:144842 3rd Qu.:299469 Max.nchar:10
Max. :165349 Max. :182646 Max. :471784
Profit
Min. : 14681
1st Qu.: 90139
Median :107978
Mean :112013
3rd Qu.:139766
Max. :192262
Menampilkan statistik deskriptif dari setiap variabel seperti minimum, maksimum, mean, median, kuartil, karakter, panjang karakter.
> # Scatter Plot R&D Spend dengan Profit
> plot(startup$R.D.Spend,
+ startup$Profit,
+ main = "Scatter Plot R&D Spend vs Profit",
+ xlab = "R&D Spend",
+ ylab = "Profit",
+ pch = 19,
+ col = "pink")
> abline(lm(Profit ~ R.D.Spend, data = startup),
+ col = "red",
+ lwd = 2)
Membuat scatter plot dengan variabel R.D.Spend sebagai
sumbu X dan Profit sebagai sumbu Y, dilengkapi garis
regresi linear berwarna merah.
> # Scatter Plot Marketing Spend dengan Profit
> plot(startup$Marketing.Spend,
+ startup$Profit,
+ main = "Scatter Plot Marketing Spend vs Profit",
+ xlab = "Marketing Spend",
+ ylab = "Profit",
+ pch = 19,
+ col = "lightgreen")
> abline(lm(Profit ~ Marketing.Spend, data = startup),
+ col = "darkgreen",
+ lwd = 2)
Membuat scatter plot dengan variabel Marketing.Spend
sebagai sumbu X dan Profit sebagai sumbu Y, dilengkapi
garis regresi linear berwarna hijau tua.
> # Membentuk model regresi linear sederhana
> model <- lm(Profit ~ R.D.Spend + Marketing.Spend,
+ data = startup)
>
> # Menampilkan hasil regresi
> summary(model)
Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)
Residuals:
Min 1Q Median 3Q Max
-33645 -4632 -414 6484 17097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.698e+04 2.690e+03 17.464 <2e-16 ***
R.D.Spend 7.966e-01 4.135e-02 19.266 <2e-16 ***
Marketing.Spend 2.991e-02 1.552e-02 1.927 0.06 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared: 0.9505, Adjusted R-squared: 0.9483
F-statistic: 450.8 on 2 and 47 DF, p-value: < 2.2e-16
Membuat model regresi linear menggunakan fungsi lm().
Variabel Profit sebagai variabel respon (Y), sedangkan
R.D.Spend dan Marketing.Spend sebagai variabel
prediktor (X). Fungsi summary() menampilkan ringkasan hasil
regresi seperti nilai koefisien, p-value, R-Squared, Adjusted R-Squared,
F-statistic, Multiple R-squared.
> # Persamaan Regresi
> coef(model)
(Intercept) R.D.Spend Marketing.Spend
4.697586e+04 7.965840e-01 2.990788e-02
> cat("Profit =", round(coef(model)[1], 2), "+",
+ round(coef(model)[2], 4), "* R.D.Spend +",
+ round(coef(model)[3], 4), "* Marketing.Spend")
Profit = 46975.86 + 0.7966 * R.D.Spend + 0.0299 * Marketing.Spend
coef(model) mengambil nilai koefisien regresi dari model
yang sudah ada berupa intercept dan koefisien masing-masing variabel
independen. cat() menampilkan persamaan regresi linear
dalam bentuk teks.
> # Uji Signifikansi Model
> model <- lm(Profit ~ R.D.Spend + Marketing.Spend,
+ data = startup)
> summary(model)
Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)
Residuals:
Min 1Q Median 3Q Max
-33645 -4632 -414 6484 17097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.698e+04 2.690e+03 17.464 <2e-16 ***
R.D.Spend 7.966e-01 4.135e-02 19.266 <2e-16 ***
Marketing.Spend 2.991e-02 1.552e-02 1.927 0.06 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared: 0.9505, Adjusted R-squared: 0.9483
F-statistic: 450.8 on 2 and 47 DF, p-value: < 2.2e-16
Membuat model regresi linear berganda dan menampilkan ringkasan hasil regresi linear. Output yang dihasilkan adalah nilai koefisien regresi, nilai t hitung, p-value, R-Squared, Adjusted R-Squared, dan F-statistic untuk menguji signifikansi model regresi.
> # Plot Diagnostik
> par(mfrow = c(2,2))
> plot(model)
par(mfrow = c(2,2)) mengatur tampilan grafik menjadi 2
baris dan 2 kolom. plot(model) menampilkan grafik
diagnostik regresi seperti Residual vs Fitted, Normal Q-Q,
Scale-Location, dan Residuals vs Leverage untuk cek asumsi model
regresi.
> # Uji Linearitas
> library(lmtest)
> resettest(model)
RESET test
data: model
RESET = 2.9199, df1 = 2, df2 = 45, p-value = 0.06423
Memanggil package lmtest dan mengecek asumsi linearitas
model regresi. Jika p-value > 0,05 maka model linear.
> # Uji Heteroskedastisitas
> bptest(model)
studentized Breusch-Pagan test
data: model
BP = 2.8431, df = 2, p-value = 0.2413
Melakukan uji Breusch-Pagan untuk mendeteksi heteroskedastisitas. Jika p-value > 0,05 maka varians residual dianggap homogen (tidak terjadi heteroskedastisitas).
> # Uji Autokorelasi
> dwtest(model)
Durbin-Watson test
data: model
DW = 1.2567, p-value = 0.001819
alternative hypothesis: true autocorrelation is greater than 0
Melakukan uji Durbin-Watson untuk mendeteksi autokorelasi pada residual. Jika p-value > 0,05 maka tidak terjadi autokorelasi.
> # Uji Multikolinieritas
> library(car)
> vif(model)
R.D.Spend Marketing.Spend
2.103206 2.103206
Memanggil package car dan menghitung nilai VIF (Variance
Inflation Factor) untuk mendeteksi multikolinearitas antar variabel
bebas. VIF < 10 maka tidak terjadi multikolinearitas.
> # Uji Normalitas - Shapiro Wilk
> shapiro.test(model$residuals)
Shapiro-Wilk normality test
data: model$residuals
W = 0.93717, p-value = 0.01042
Melakukan uji Shapiro-Wilk untuk mengecek normalitas residual. Jika p-value > 0,05 maka residual berdistribusi normal.
> # Uji Normalitas - Jarque Bera
> library(tseries)
> jarque.bera.test(model$residuals)
Jarque Bera Test
data: model$residuals
X-squared = 21.161, df = 2, p-value = 2.541e-05
Memanggil package tseries dan melakukan uji Jarque-Bera
untuk mengecek normalitas residual berdasarkan skewness dan kurtosis.
Jika p-value > 0,05 maka residual berdistribusi normal.
R.D.Spend Administration Marketing.Spend State
Min. : 0 Min. : 51283 Min. : 0 Length :50
1st Qu.: 39936 1st Qu.:103731 1st Qu.:129300 N.unique : 3
Median : 73051 Median :122700 Median :212716 N.blank : 0
Mean : 73722 Mean :121345 Mean :211025 Min.nchar: 7
3rd Qu.:101603 3rd Qu.:144842 3rd Qu.:299469 Max.nchar:10
Max. :165349 Max. :182646 Max. :471784
Profit
Min. : 14681
1st Qu.: 90139
Median :107978
Mean :112013
3rd Qu.:139766
Max. :192262
Interpretasi:
1. R&D Spend
2. Administration (Biaya Administrasi)
3. Marketing Spend
4. State
5. Profit
Interpretasi:
Berdasarkan scatter plot dan dataset 50 Startup, terlihat bahwa R&D Spend memiliki hubungan positif terhadap Profit. Semakin besar biaya penelitian dan pengembangan yang dikeluarkan perusahaan, maka keuntungan perusahaan cenderung meningkat. Ditunjukkan dengan pola titik yang naik dan garis regresi yang mengarah ke atas kanan. Maka dapat disimpulkan investasi pada R&D berpengaruh penting dalam meningkatkan profit perusahaan startup.
Interpretasi:
Berdasarkan scatter plot Marketing Spend vs Profit, terlihat terdapat hubungan positif di mana semakin besar pengeluaran pemasaran cenderung meningkatkan profit, namun pola titik-titik cukup menyebar dan tidak selinier seperti pada R&D Spend, sehingga pengaruhnya tidak sekuat R&D Spend. Beberapa titik dengan Marketing Spend tinggi (mendekati 400.000) tetapi hanya menghasilkan profit sekitar 100.000–150.000, yang menunjukkan bahwa optimalisasi pengeluaran pemasaran beragam antar perusahaan rintisan.
Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)
Residuals:
Min 1Q Median 3Q Max
-33645 -4632 -414 6484 17097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.698e+04 2.690e+03 17.464 <2e-16 ***
R.D.Spend 7.966e-01 4.135e-02 19.266 <2e-16 ***
Marketing.Spend 2.991e-02 1.552e-02 1.927 0.06 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared: 0.9505, Adjusted R-squared: 0.9483
F-statistic: 450.8 on 2 and 47 DF, p-value: < 2.2e-16
Interpretasi:
(Intercept) R.D.Spend Marketing.Spend
4.697586e+04 7.965840e-01 2.990788e-02
Profit = 46975.86 + 0.7966 * R.D.Spend + 0.0299 * Marketing.Spend
Interpretasi:
Maka Persamaan Regresi Linier:
\[\hat{Y} = 46975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\]
di mana \(X_1\) adalah R.D.Spend, \(X_2\) adalah Marketing.Spend, dan \(\hat{Y}\) adalah Profit.
Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)
Residuals:
Min 1Q Median 3Q Max
-33645 -4632 -414 6484 17097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.698e+04 2.690e+03 17.464 <2e-16 ***
R.D.Spend 7.966e-01 4.135e-02 19.266 <2e-16 ***
Marketing.Spend 2.991e-02 1.552e-02 1.927 0.06 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared: 0.9505, Adjusted R-squared: 0.9483
F-statistic: 450.8 on 2 and 47 DF, p-value: < 2.2e-16
Hipotesis:
Statistik Uji:
F-statistic = 450,8
Derajat Bebas: \(df_1 = 2\), \(df_2 = 47\)
p-value < 2,2e-16
Keputusan: Karena p-value < 0,05, maka Tolak \(H_0\)
Kesimpulan: Maka secara simultan, variabel R.D.Spend dan Marketing.Spend bersama-sama berpengaruh secara signifikan terhadap Profit pada tingkat signifikansi 5%.
a. Variabel R.D.Spend
Hipotesis:
t-value: 19,266
p-value: < 0,0000000000000002
Keputusan: p-value (0,0000000000000002) < 0,05, maka Tolak \(H_0\)
Kesimpulan: Pada taraf signifikansi 5%, R.D.Spend berpengaruh signifikan terhadap Profit.
b. Variabel Marketing.Spend
Hipotesis:
t-value: 1,927
p-value: 0,06
Keputusan: p-value = 0,06 > 0,05, maka Gagal tolak \(H_0\)
Kesimpulan: Pada taraf signifikansi 5%, Marketing.Spend tidak berpengaruh signifikan terhadap Profit.
a. Residuals vs Fitted
Tujuan: Memeriksa linearitas dan homoskedastisitas.
Interpretasi: Residual tersebar acak di sekitar 0 tanpa pola tertentu,
maka asumsi linearitas terpenuhi.
b. Normal Q-Q Residuals
Tujuan: Memeriksa normalitas residual.
Interpretasi: Titik-titik mendekati garis diagonal, maka residual
berdistribusi normal. Penyimpangan di ujung berbentuk ekor panjang
menunjukkan deviasi dari normalitas.
c. Scale-Location
Tujuan: Memeriksa homoskedastisitas.
Interpretasi: Garis horizontal mendatar, maka ragam konstan sehingga
asumsi terpenuhi.
d. Residuals vs Leverage
Tujuan: Mendeteksi titik pengaruh.
Interpretasi: Titik di luar kurva Cook’s distance (garis putus-putus)
menunjukkan observasi berpengaruh besar. Pada grafik tidak ada titik
yang melewati garis 0,5, maka tidak ada titik yang sangat mengganggu
model.
Maka model regresi linier berganda dengan prediktor R.D.Spend dan Marketing.Spend telah memenuhi seluruh asumsi klasik, sehingga hasil estimasi koefisien, uji signifikansi, dan prediksi dapat diinterpretasikan secara valid dan andal.
studentized Breusch-Pagan test
data: model
BP = 2.8431, df = 2, p-value = 0.2413
Hipotesis:
Keputusan: BP = 2,8431, df = 2, p-value =
0,2413
Karena p-value = 0,2413 > 0,05 (\(\alpha\) = 5%), maka Terima \(H_0\)
Kesimpulan: Dengan taraf signifikansi 5%, tidak cukup bukti untuk menyatakan bahwa terjadi heteroskedastisitas. Sehingga, asumsi homoskedastisitas terpenuhi.
Durbin-Watson test
data: model
DW = 1.2567, p-value = 0.001819
alternative hypothesis: true autocorrelation is greater than 0
Hipotesis:
Keputusan: DW = 1,2567, p-value = 0,001819
Karena p-value = 0,001819 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)
Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa terjadi autokorelasi positif pada residual model.
R.D.Spend Marketing.Spend
2.103206 2.103206
Hipotesis:
Keputusan: R.D.Spend = 2,103206, Marketing.Spend =
2,103206
Nilai VIF < 5 dan < 10, maka Terima \(H_0\)
Kesimpulan: Dengan menggunakan ambang batas VIF < 5 (atau < 10), tidak terdapat masalah multikolinieritas antara R.D.Spend dan Marketing.Spend. Kedua variabel prediktor memberikan kontribusi yang cukup terhadap variabel respon Profit.
Shapiro-Wilk normality test
data: model$residuals
W = 0.93717, p-value = 0.01042
Hipotesis:
Keputusan: W = 0,93717, p-value = 0,01042
Karena p-value = 0,01042 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)
Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa residual tidak berdistribusi normal.
Jarque Bera Test
data: model$residuals
X-squared = 21.161, df = 2, p-value = 2.541e-05
Hipotesis:
Keputusan: X-squared = 21,161, df = 2, p-value =
0,00002541
Karena p-value = 0,00002541 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)
Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa residual tidak berdistribusi normal.
Berdasarkan seluruh hasil analisis regresi linier berganda yang telah dilakukan terhadap dataset 50 Startups, diperoleh model persamaan regresi sebagai berikut: \(\hat{Y} = 46.975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\), di mana \(X_1\) merupakan R.D.Spend dan \(X_2\) merupakan Marketing.Spend. Model tersebut mampu menjelaskan sebesar 95,05% variasi pada variabel Profit (\(R^2 = 0{,}9505\)), yang menunjukkan bahwa kedua variabel prediktor secara bersama-sama memiliki kemampuan yang sangat kuat dalam menjelaskan besarnya profit perusahaan startup.
Berdasarkan uji signifikansi secara simultan (Uji F), diperoleh nilai F-statistic sebesar 450,8 dengan p-value < 2,2e-16, sehingga dapat disimpulkan bahwa model secara keseluruhan signifikan pada taraf 5%. Artinya, R.D.Spend dan Marketing.Spend secara bersama-sama berpengaruh nyata terhadap Profit. Sementara itu, pada uji signifikansi secara parsial (Uji t), variabel R.D.Spend terbukti berpengaruh signifikan terhadap Profit dengan t-value sebesar 19,266 dan p-value < 0,0000002, sedangkan variabel Marketing.Spend tidak berpengaruh signifikan secara individual dengan p-value sebesar 0,06 yang melebihi taraf signifikansi 5%.
Pada pengujian asumsi klasik, asumsi homoskedastisitas terpenuhi berdasarkan uji Breusch-Pagan dengan nilai BP = 2,8431 dan p-value = 0,2413 yang lebih besar dari 0,05. Begitu pula asumsi multikolinieritas terpenuhi karena nilai VIF kedua variabel prediktor sebesar 2,103 yang jauh di bawah ambang batas 5 maupun 10, sehingga tidak terdapat masalah multikolinieritas antar variabel prediktor. Namun, terdapat dua pelanggaran asumsi. Pertama, uji Durbin-Watson menunjukkan adanya autokorelasi positif pada residual model dengan p-value = 0,001819 yang lebih kecil dari 0,05. Kedua, uji normalitas residual melalui Shapiro-Wilk (p-value = 0,01042) dan Jarque-Bera (p-value = 0,000025) sama-sama menghasilkan bahwa residual tidak berdistribusi normal.
Maka, dapat disimpulkan bahwa model regresi memiliki kemampuan prediksi yang sangat baik dengan \(R^2\) sebesar 95,05% dan signifikan secara statistik, kemudian pelanggaran pada asumsi autokorelasi dan normalitas residual yang menyebabkan hasil perlu diinterpretasikan dengan hati-hati. Untuk meningkatkan kualitas model dilakukan transformasi variabel untuk mengatasi non-normalitas, penerapan metode Generalized Least Squares (GLS) untuk menangani autokorelasi.
Berdasarkan hasil analisis regresi linier berganda yang telah dilakukan terhadap dataset 50 Startups menggunakan software R, dapat disimpulkan sebagai berikut.
Pertama, model regresi linier berganda yang terbentuk adalah \(\hat{Y} = 46.975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\), di mana \(X_1\) merupakan R.D.Spend dan \(X_2\) merupakan Marketing.Spend sebagai variabel independen, serta Profit sebagai variabel dependen. Model tersebut memiliki nilai \(R^2\) sebesar 0,9505 yang berarti sebesar 95,05% variasi Profit mampu dijelaskan oleh kedua variabel prediktor dalam model. Nilai Adjusted \(R^2\) sebesar 0,9483 juga menunjukkan bahwa kemampuan model tetap sangat tinggi setelah mempertimbangkan jumlah variabel yang diikutsertakan, sehingga model dapat dikatakan memiliki daya prediksi yang sangat baik.
Kedua, pengujian signifikansi secara simultan melalui Uji F menghasilkan nilai F-statistic sebesar 450,8 dengan p-value < 2,2e-16. Karena p-value jauh di bawah taraf signifikansi 5%, dapat disimpulkan bahwa variabel R.D.Spend dan Marketing.Spend secara bersama-sama berpengaruh nyata terhadap Profit. Sementara itu, hasil uji parsial (Uji t) menunjukkan bahwa R.D.Spend merupakan prediktor yang dominan dengan t-value sebesar 19,266 dan p-value yang sangat kecil (< 0,0000002), sehingga terbukti signifikan secara statistik. Sebaliknya, Marketing.Spend tidak berpengaruh signifikan secara individual dengan p-value sebesar 0,06 yang melebihi taraf signifikansi 5%, sehingga pengaruhnya tidak cukup kuat bila dikendalikan oleh R.D.Spend.
Ketiga, pada pengujian asumsi klasik, beberapa asumsi terpenuhi dengan baik. Asumsi homoskedastisitas terkonfirmasi melalui uji Breusch-Pagan dengan nilai BP = 2,8431 dan p-value = 0,2413 (> 0,05), yang berarti ragam residual bersifat konstan. Asumsi multikolinieritas juga terpenuhi karena nilai VIF untuk kedua variabel prediktor sama-sama sebesar 2,103, yang jauh di bawah ambang batas 5 maupun 10, sehingga tidak terdapat korelasi berlebihan antar variabel independen.
Keempat, terdapat dua pelanggaran asumsi klasik yang perlu diketahui. Uji Durbin-Watson mendeteksi adanya autokorelasi positif pada residual model dengan nilai DW = 1,2567 dan p-value = 0,001819 (< 0,05). Selain itu, kedua uji normalitas residual, yakni Shapiro-Wilk (p-value = 0,01042) dan Jarque-Bera (p-value = 0,00002541), secara konsisten menolak hipotesis nol bahwa residual berdistribusi normal. Adanya dua pelanggaran ini menunjukkan bahwa meskipun model memiliki kemampuan prediksi yang tinggi, hasil statistik seperti uji hipotesis dan interval kepercayaan perlu diinterpretasikan secara lebih hati-hati.
Secara keseluruhan, analisis ini menunjukkan bahwa investasi pada R&D merupakan faktor penentu dalam meningkatkan profit perusahaan startup, sedangkan pengeluaran pemasaran memberikan kontribusi yang relatif kecil dan tidak signifikan secara statistik bila dikendalikan oleh faktor R&D. Untuk meningkatkan kualitas model ke depannya, disarankan untuk melakukan transformasi variabel untuk mengatasi permasalahan non-normalitas, serta menggunakan metode Generalized Least Squares (GLS) atau Cochrane-Orcutt untuk menangani autokorelasi yang terdeteksi pada residual model.
Veerakumar, K. (2018). Startup — Multiple linear regression [Dataset]. Kaggle. https://www.kaggle.com/datasets/karthickveerakumar/startup-logistic-regression
Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica: Journal of the Econometric Society, 1287–1294.
Draper, N. R., & Smith, H. (1998). Applied regression analysis (Vol. 326). John Wiley & Sons.
Durbin, J., & Watson, G. S. (1951). Testing for serial correlation in least squares regression. Biometrika, 38(1–2), 159–177.
Fox, J., & Weisberg, S. (2018). An R companion to applied regression. Sage Publications.
Gujarati, D. N. (2004). Basic econometrics. McGraw-Hill.
Hair Jr, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis. Pearson.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to linear regression analysis. John Wiley & Sons.
O’Brien, R. M. (2007). A caution regarding rules of thumb for variance inflation factors. Quality & Quantity, 41(5), 673–690.
Razali, N. M., & Wah, Y. B. (2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics, 2(1), 21–33.
Sievert, C. (2020). Interactive web-based data visualization with R, plotly, and shiny. Chapman and Hall/CRC.
Zeileis, A., & Hothorn, T. (2002). Diagnostic checking in regression relationships. R News, 2(3), 7–10.