1 BAB I STUDI KASUS

1.1 Ketentuan Data

Carilah dataset sendiri dari sumber terbuka (Kaggle, BPS, WHO, atau sumber lain yang relevan).
Dataset harus memiliki minimal 2 variabel prediktor yang dapat dianalisis dengan analisis regresi.
Tentukan:
- Variabel independen (X)
- Variabel dependen (Y)
Jumlah observasi minimal 30 data.

1.2 Langkah Analisis

Lakukan analisis berikut menggunakan software R:

Eksplorasi Data
- Tampilkan ringkasan statistik deskriptif.
- Buat scatter plot antara variabel X dan Y.
- Jelaskan secara singkat hubungan awal yang terlihat.
Membangun Model Regresi Linier Sederhana
- Bentuk model regresi linier sederhana.
- Tuliskan persamaan model yang diperoleh.
- Interpretasikan koefisien regresi.
Uji Signifikansi Model
Lakukan uji signifikansi parameter regresi dan interpretasikan hasil yang didapatkan.
Uji Asumsi Regresi
Lakukan dan interpretasikan uji asumsi hasil pemodelan.
Tuliskan kesimpulan dari hasil analisis regresi yang dilakukan.

2 BAB II TINJAUAN PUSTAKA

2.1 Regresi Linier Berganda

Regresi linier berganda merupakan salah satu metode statistika yang digunakan untuk menganalisis hubungan antara satu variabel dependen (terikat) dengan dua atau lebih variabel independen (bebas) secara bersamaan. Menurut Gujarati dan Porter (2009), model regresi linier berganda bertujuan untuk mengestimasi seberapa besar pengaruh variabel-variabel prediktor terhadap variabel respons, serta digunakan sebagai alat prediksi nilai variabel dependen berdasarkan nilai variabel independen yang diketahui.

Persamaan umum model regresi linier berganda dinyatakan sebagai berikut:

\[\hat{Y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon\]

di mana \(\hat{Y}\) adalah nilai prediksi variabel dependen, \(\beta_0\) adalah konstanta (intercept), \(\beta_1, \beta_2, \ldots, \beta_k\) adalah koefisien regresi masing-masing variabel prediktor, \(X_1, X_2, \ldots, X_k\) adalah variabel independen, dan \(\varepsilon\) adalah error atau residual. Nilai koefisien regresi diestimasi menggunakan metode Ordinary Least Squares (OLS), yaitu dengan meminimumkan jumlah kuadrat selisih antara nilai observasi dan nilai prediksi (Draper & Smith, 1998).

2.2 Uji Signifikansi Model

Pengujian signifikansi dalam analisis regresi linier berganda dilakukan melalui dua pendekatan utama, yaitu uji simultan (Uji F) dan uji parsial (Uji t). Uji F digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama berpengaruh signifikan terhadap variabel dependen. Hipotesis pada uji F adalah \(H_0 : \beta_1 = \beta_2 = \ldots = \beta_k = 0\) melawan \(H_1\): minimal ada satu \(\beta_j \neq 0\). Apabila nilai p-value kurang dari taraf signifikansi \(\alpha = 0{,}05\), maka \(H_0\) ditolak dan disimpulkan bahwa model secara simultan signifikan (Montgomery et al., 2012).

Sementara itu, uji t digunakan untuk menguji pengaruh masing-masing variabel independen secara individual terhadap variabel dependen dengan mengendalikan variabel lain dalam model. Keputusan diambil berdasarkan perbandingan nilai p-value dengan \(\alpha = 0{,}05\). Jika p-value < 0,05 maka variabel prediktor tersebut berpengaruh signifikan terhadap variabel respons secara parsial (Hair et al., 2014). Selain itu, koefisien determinasi \(R^2\) digunakan sebagai ukuran seberapa besar variasi variabel dependen dapat dijelaskan oleh variabel-variabel prediktor dalam model.

2.3 Uji Asumsi Klasik Regresi

Agar estimasi koefisien regresi dengan metode OLS bersifat BLUE (Best Linear Unbiased Estimator), perlu dipenuhi beberapa asumsi klasik yang dikenal sebagai asumsi Gauss-Markov. Pengujian asumsi ini meliputi uji normalitas residual, uji homoskedastisitas, uji autokorelasi, dan uji multikolinieritas (Gujarati & Porter, 2009).

Pertama, uji normalitas bertujuan untuk memastikan bahwa residual model berdistribusi normal. Pengujian dapat dilakukan menggunakan uji Shapiro-Wilk untuk sampel kecil hingga menengah (n < 50) dan uji Jarque-Bera untuk sampel yang lebih besar. Jika p-value > 0,05 maka asumsi normalitas terpenuhi (Razali & Wah, 2011).

Kedua, uji homoskedastisitas dilakukan untuk memastikan bahwa ragam residual bersifat konstan pada semua nilai variabel prediktor. Salah satu metode yang umum digunakan adalah uji Breusch-Pagan. Apabila nilai p-value dari uji tersebut lebih besar dari \(\alpha = 0{,}05\), maka asumsi homoskedastisitas terpenuhi (Breusch & Pagan, 1979).

Ketiga, uji autokorelasi digunakan untuk mendeteksi apakah terdapat korelasi antara residual pada satu pengamatan dengan pengamatan lainnya. Uji Durbin-Watson merupakan salah satu prosedur yang umum digunakan, di mana nilai DW mendekati 2 menunjukkan tidak adanya autokorelasi. Jika p-value < 0,05 maka disimpulkan terdapat autokorelasi positif pada residual (Durbin & Watson, 1951).

Keempat, uji multikolinieritas bertujuan untuk mendeteksi adanya korelasi tinggi antar variabel independen. Salah satu cara yang banyak digunakan adalah dengan menghitung Variance Inflation Factor (VIF). Nilai VIF yang melebihi 10 (atau 5) menunjukkan adanya masalah multikolinieritas yang perlu diatasi (O’Brien, 2007).

2.4 Dataset 50 Startups

Dataset 50 Startups merupakan kumpulan data yang tersedia secara publik di platform Kaggle dan sering digunakan dalam pembelajaran analisis regresi. Dataset ini terdiri dari 50 observasi dengan 2 bisa dijadikan variabel prediktor, yaitu R&D Spend (biaya riset dan pengembangan) dan Marketing Spend (biaya pemasaran), serta Profit sebagai variabel dependen. Dataset ini memberikan gambaran nyata tentang bagaimana pengalokasian anggaran pada setiap divisi di perusahaan rintisan dapat memengaruhi besar kecilnya keuntungan yang diperoleh perusahaan.

Penggunaan dataset ini dalam konteks analisis regresi linier berganda memungkinkan eksplorasi hubungan antara variabel-variabel pengeluaran operasional perusahaan terhadap profit. Menurut Sievert et al. (2021), pemilihan dataset yang relevan dengan konteks dunia nyata sangat penting dalam pembelajaran statistika terapan karena membantu mahasiswa memahami interpretasi hasil analisis secara lebih bermakna dan kontekstual.

2.5 Software R dalam Analisis Regresi

R merupakan bahasa pemrograman sekaligus sebagai komputasi statistika yang dikembangkan oleh R Core Team dan didistribusikan secara gratis sebagai perangkat lunak open-source. Dalam analisis regresi, R menyediakan berbagai fungsi bawaan maupun paket tambahan yang memudahkan proses pemodelan, pengujian asumsi, dan visualisasi data. Fungsi lm() digunakan untuk membangun model regresi linier, sementara summary() memberikan ringkasan hasil estimasi koefisien beserta statistik uji yang relevan.

Beberapa paket yang digunakan dalam praktikum ini antara lain lmtest untuk pengujian linearitas dan heteroskedastisitas melalui fungsi resettest() dan bptest(), car untuk perhitungan VIF menggunakan fungsi vif(), serta tseries untuk uji normalitas Jarque-Bera melalui jarque.bera.test(). Paket-paket tersebut tersedia di CRAN (Comprehensive R Archive Network) dan telah digunakan secara luas dalam penelitian statistika terapan (Zeileis & Hothorn, 2002; Fox & Weisberg, 2019).

3 BAB III SOURCE CODE DAN PENJELASAN

Berikut merupakan source code beserta penjelasan mengenai coding pada R.

3.1 Eksplorasi Data

> # Membaca data
> startup <- read.csv("C:/Users/WINDOWS 11/Downloads/data startup.csv")

Membaca file CSV bernama data startup.csv kemudian menyimpannya ke dalam variabel startup.

> # Melihat data
> startup
   R.D.Spend Administration Marketing.Spend      State    Profit
1  165349.20      136897.80       471784.10   New York 192261.83
2  162597.70      151377.59       443898.53 California 191792.06
3  153441.51      101145.55       407934.54    Florida 191050.39
4  144372.41      118671.85       383199.62   New York 182901.99
5  142107.34       91391.77       366168.42    Florida 166187.94
6  131876.90       99814.71       362861.36   New York 156991.12
7  134615.46      147198.87       127716.82 California 156122.51
8  130298.13      145530.06       323876.68    Florida 155752.60
9  120542.52      148718.95       311613.29   New York 152211.77
10 123334.88      108679.17       304981.62 California 149759.96
11 101913.08      110594.11       229160.95    Florida 146121.95
12 100671.96       91790.61       249744.55 California 144259.40
13  93863.75      127320.38       249839.44    Florida 141585.52
14  91992.39      135495.07       252664.93 California 134307.35
15 119943.24      156547.42       256512.92    Florida 132602.65
16 114523.61      122616.84       261776.23   New York 129917.04
17  78013.11      121597.55       264346.06 California 126992.93
18  94657.16      145077.58       282574.31   New York 125370.37
19  91749.16      114175.79       294919.57    Florida 124266.90
20  86419.70      153514.11            0.00   New York 122776.86
21  76253.86      113867.30       298664.47 California 118474.03
22  78389.47      153773.43       299737.29   New York 111313.02
23  73994.56      122782.75       303319.26    Florida 110352.25
24  67532.53      105751.03       304768.73    Florida 108733.99
25  77044.01       99281.34       140574.81   New York 108552.04
26  64664.71      139553.16       137962.62 California 107404.34
27  75328.87      144135.98       134050.07    Florida 105733.54
28  72107.60      127864.55       353183.81   New York 105008.31
29  66051.52      182645.56       118148.20    Florida 103282.38
30  65605.48      153032.06       107138.38   New York 101004.64
31  61994.48      115641.28        91131.24    Florida  99937.59
32  61136.38      152701.92        88218.23   New York  97483.56
33  63408.86      129219.61        46085.25 California  97427.84
34  55493.95      103057.49       214634.81    Florida  96778.92
35  46426.07      157693.92       210797.67 California  96712.80
36  46014.02       85047.44       205517.64   New York  96479.51
37  28663.76      127056.21       201126.82    Florida  90708.19
38  44069.95       51283.14       197029.42 California  89949.14
39  20229.59       65947.93       185265.10   New York  81229.06
40  38558.51       82982.09       174999.30 California  81005.76
41  28754.33      118546.05       172795.67 California  78239.91
42  27892.92       84710.77       164470.71    Florida  77798.83
43  23640.93       96189.63       148001.11 California  71498.49
44  15505.73      127382.30        35534.17   New York  69758.98
45  22177.74      154806.14        28334.72 California  65200.33
46   1000.23      124153.04         1903.93   New York  64926.08
47   1315.46      115816.21       297114.46    Florida  49490.75
48      0.00      135426.92            0.00 California  42559.73
49    542.05       51743.15            0.00   New York  35673.41
50      0.00      116983.80        45173.06 California  14681.40

Menampilkan seluruh isi dataset yang telah dibaca.

> # Struktur data
> str(startup)
'data.frame':   50 obs. of  5 variables:
 $ R.D.Spend      : num  165349 162598 153442 144372 142107 ...
 $ Administration : num  136898 151378 101146 118672 91392 ...
 $ Marketing.Spend: num  471784 443899 407935 383200 366168 ...
 $ State          : chr  "New York" "California" "Florida" "New York" ...
 $ Profit         : num  192262 191792 191050 182902 166188 ...

Menampilkan struktur dataset seperti nama variabel, tipe data, dan jumlah observasi.

> # Menampilkan 6 data pertama
> head(startup)
  R.D.Spend Administration Marketing.Spend      State   Profit
1  165349.2      136897.80        471784.1   New York 192261.8
2  162597.7      151377.59        443898.5 California 191792.1
3  153441.5      101145.55        407934.5    Florida 191050.4
4  144372.4      118671.85        383199.6   New York 182902.0
5  142107.3       91391.77        366168.4    Florida 166187.9
6  131876.9       99814.71        362861.4   New York 156991.1

Menampilkan 6 baris pertama dari dataset.

> # Statistika deskriptif
> summary(startup)
   R.D.Spend      Administration   Marketing.Spend        State   
 Min.   :     0   Min.   : 51283   Min.   :     0   Length   :50  
 1st Qu.: 39936   1st Qu.:103731   1st Qu.:129300   N.unique : 3  
 Median : 73051   Median :122700   Median :212716   N.blank  : 0  
 Mean   : 73722   Mean   :121345   Mean   :211025   Min.nchar: 7  
 3rd Qu.:101603   3rd Qu.:144842   3rd Qu.:299469   Max.nchar:10  
 Max.   :165349   Max.   :182646   Max.   :471784                 
     Profit      
 Min.   : 14681  
 1st Qu.: 90139  
 Median :107978  
 Mean   :112013  
 3rd Qu.:139766  
 Max.   :192262

Menampilkan statistik deskriptif dari setiap variabel seperti minimum, maksimum, mean, median, kuartil, karakter, panjang karakter.

> # Scatter Plot R&D Spend dengan Profit
> plot(startup$R.D.Spend,
+      startup$Profit,
+      main = "Scatter Plot R&D Spend vs Profit",
+      xlab = "R&D Spend",
+      ylab = "Profit",
+      pch = 19,
+      col = "pink")
> abline(lm(Profit ~ R.D.Spend, data = startup),
+        col = "red",
+        lwd = 2)

Membuat scatter plot dengan variabel R.D.Spend sebagai sumbu X dan Profit sebagai sumbu Y, dilengkapi garis regresi linear berwarna merah.

> # Scatter Plot Marketing Spend dengan Profit
> plot(startup$Marketing.Spend,
+      startup$Profit,
+      main = "Scatter Plot Marketing Spend vs Profit",
+      xlab = "Marketing Spend",
+      ylab = "Profit",
+      pch = 19,
+      col = "lightgreen")
> abline(lm(Profit ~ Marketing.Spend, data = startup),
+        col = "darkgreen",
+        lwd = 2)

Membuat scatter plot dengan variabel Marketing.Spend sebagai sumbu X dan Profit sebagai sumbu Y, dilengkapi garis regresi linear berwarna hijau tua.

3.2 Membangun Model Regresi Linier Sederhana

> # Membentuk model regresi linear sederhana
> model <- lm(Profit ~ R.D.Spend + Marketing.Spend,
+             data = startup)
> 
> # Menampilkan hasil regresi
> summary(model)

Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)

Residuals:
   Min     1Q Median     3Q    Max 
-33645  -4632   -414   6484  17097 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.698e+04  2.690e+03  17.464   <2e-16 ***
R.D.Spend       7.966e-01  4.135e-02  19.266   <2e-16 ***
Marketing.Spend 2.991e-02  1.552e-02   1.927     0.06 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared:  0.9505,    Adjusted R-squared:  0.9483 
F-statistic: 450.8 on 2 and 47 DF,  p-value: < 2.2e-16

Membuat model regresi linear menggunakan fungsi lm(). Variabel Profit sebagai variabel respon (Y), sedangkan R.D.Spend dan Marketing.Spend sebagai variabel prediktor (X). Fungsi summary() menampilkan ringkasan hasil regresi seperti nilai koefisien, p-value, R-Squared, Adjusted R-Squared, F-statistic, Multiple R-squared.

> # Persamaan Regresi
> coef(model)
    (Intercept)       R.D.Spend Marketing.Spend 
   4.697586e+04    7.965840e-01    2.990788e-02 
> cat("Profit =", round(coef(model)[1], 2), "+",
+     round(coef(model)[2], 4), "* R.D.Spend +",
+     round(coef(model)[3], 4), "* Marketing.Spend")
Profit = 46975.86 + 0.7966 * R.D.Spend + 0.0299 * Marketing.Spend

coef(model) mengambil nilai koefisien regresi dari model yang sudah ada berupa intercept dan koefisien masing-masing variabel independen. cat() menampilkan persamaan regresi linear dalam bentuk teks.

3.3 Uji Signifikansi Model

> # Uji Signifikansi Model
> model <- lm(Profit ~ R.D.Spend + Marketing.Spend,
+             data = startup)
> summary(model)

Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)

Residuals:
   Min     1Q Median     3Q    Max 
-33645  -4632   -414   6484  17097 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.698e+04  2.690e+03  17.464   <2e-16 ***
R.D.Spend       7.966e-01  4.135e-02  19.266   <2e-16 ***
Marketing.Spend 2.991e-02  1.552e-02   1.927     0.06 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared:  0.9505,    Adjusted R-squared:  0.9483 
F-statistic: 450.8 on 2 and 47 DF,  p-value: < 2.2e-16

Membuat model regresi linear berganda dan menampilkan ringkasan hasil regresi linear. Output yang dihasilkan adalah nilai koefisien regresi, nilai t hitung, p-value, R-Squared, Adjusted R-Squared, dan F-statistic untuk menguji signifikansi model regresi.

3.4 Uji Asumsi Regresi

> # Plot Diagnostik
> par(mfrow = c(2,2))
> plot(model)

par(mfrow = c(2,2)) mengatur tampilan grafik menjadi 2 baris dan 2 kolom. plot(model) menampilkan grafik diagnostik regresi seperti Residual vs Fitted, Normal Q-Q, Scale-Location, dan Residuals vs Leverage untuk cek asumsi model regresi.

> # Uji Linearitas
> library(lmtest)
> resettest(model)

    RESET test

data:  model
RESET = 2.9199, df1 = 2, df2 = 45, p-value = 0.06423

Memanggil package lmtest dan mengecek asumsi linearitas model regresi. Jika p-value > 0,05 maka model linear.

> # Uji Heteroskedastisitas
> bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 2.8431, df = 2, p-value = 0.2413

Melakukan uji Breusch-Pagan untuk mendeteksi heteroskedastisitas. Jika p-value > 0,05 maka varians residual dianggap homogen (tidak terjadi heteroskedastisitas).

> # Uji Autokorelasi
> dwtest(model)

    Durbin-Watson test

data:  model
DW = 1.2567, p-value = 0.001819
alternative hypothesis: true autocorrelation is greater than 0

Melakukan uji Durbin-Watson untuk mendeteksi autokorelasi pada residual. Jika p-value > 0,05 maka tidak terjadi autokorelasi.

> # Uji Multikolinieritas
> library(car)
> vif(model)
      R.D.Spend Marketing.Spend 
       2.103206        2.103206

Memanggil package car dan menghitung nilai VIF (Variance Inflation Factor) untuk mendeteksi multikolinearitas antar variabel bebas. VIF < 10 maka tidak terjadi multikolinearitas.

> # Uji Normalitas - Shapiro Wilk
> shapiro.test(model$residuals)

    Shapiro-Wilk normality test

data:  model$residuals
W = 0.93717, p-value = 0.01042

Melakukan uji Shapiro-Wilk untuk mengecek normalitas residual. Jika p-value > 0,05 maka residual berdistribusi normal.

> # Uji Normalitas - Jarque Bera
> library(tseries)
> jarque.bera.test(model$residuals)

    Jarque Bera Test

data:  model$residuals
X-squared = 21.161, df = 2, p-value = 2.541e-05

Memanggil package tseries dan melakukan uji Jarque-Bera untuk mengecek normalitas residual berdasarkan skewness dan kurtosis. Jika p-value > 0,05 maka residual berdistribusi normal.

4 BAB IV HASIL DAN PEMBAHASAN

4.1 Eksplorasi Data

4.1.1 Ringkasan Statistik Deskriptif

   R.D.Spend      Administration   Marketing.Spend        State   
 Min.   :     0   Min.   : 51283   Min.   :     0   Length   :50  
 1st Qu.: 39936   1st Qu.:103731   1st Qu.:129300   N.unique : 3  
 Median : 73051   Median :122700   Median :212716   N.blank  : 0  
 Mean   : 73722   Mean   :121345   Mean   :211025   Min.nchar: 7  
 3rd Qu.:101603   3rd Qu.:144842   3rd Qu.:299469   Max.nchar:10  
 Max.   :165349   Max.   :182646   Max.   :471784                 
     Profit      
 Min.   : 14681  
 1st Qu.: 90139  
 Median :107978  
 Mean   :112013  
 3rd Qu.:139766  
 Max.   :192262

Interpretasi:

1. R&D Spend

Min = 0, Max = 165.349, terdapat startup yang tidak mengeluarkan biaya R&D sama sekali, sementara yang lain mengeluarkan hingga >165 ribu.
Mean = 73.722, Median = 73.051, menunjukkan distribusi mendekati simetris.
1st Qu. = 39.936, 3rd Qu. = 101.603, 50% startup di tengah memiliki pengeluaran R&D antara sekitar 39.936 ribu hingga 101.603 ribu.

2. Administration (Biaya Administrasi)

Min = 51.283, Max = 182.646, menunjukkan variasi cukup besar.
Mean = 121.345, Median = 122.700, karena hampir sama, distribusi relatif simetris.
1st Qu. = 103.731, 3rd Qu. = 144.842, maka sebagian besar startup mengeluarkan biaya administrasi antara 103.731 ribu hingga 144.842 ribu.

3. Marketing Spend

Min = 0, Max = 471.784, terdapat yang tidak keluar biaya pemasaran sama sekali, ada juga yang sangat besar.
Mean = 211.025, Median = 212.716, karena hampir sama, distribusi simetris.
1st Qu. = 129.300, 3rd Qu. = 299.469, 50% startup mengeluarkan antara 129.300 ribu hingga 299.469 ribu untuk pemasaran.

4. State

Length = 50, terdapat 50 observasi.
N.unique = 3, terdapat 3 negara berbeda.
N.blank = 0, tidak ada data kosong.
Min.nchar = 7, Max.nchar = 10, panjang karakter nama state antara 7–10 huruf (New York, California, Florida).

5. Profit

Min = 14.681, Max = 192.262, rentang laba sangat lebar.
Mean = 112.013, Median = 107.978, karena mean sedikit lebih besar daripada median, menunjukkan distribusi sedikit condong ke kanan.
1st Qu. = 90.139, 3rd Qu. = 139.766, artinya 50% startup memiliki laba antara 90.139 ribu hingga 139.766 ribu.

4.1.2 Scatter Plot antara Variabel X dan Y

Interpretasi:

Berdasarkan scatter plot dan dataset 50 Startup, terlihat bahwa R&D Spend memiliki hubungan positif terhadap Profit. Semakin besar biaya penelitian dan pengembangan yang dikeluarkan perusahaan, maka keuntungan perusahaan cenderung meningkat. Ditunjukkan dengan pola titik yang naik dan garis regresi yang mengarah ke atas kanan. Maka dapat disimpulkan investasi pada R&D berpengaruh penting dalam meningkatkan profit perusahaan startup.

Interpretasi:

Berdasarkan scatter plot Marketing Spend vs Profit, terlihat terdapat hubungan positif di mana semakin besar pengeluaran pemasaran cenderung meningkatkan profit, namun pola titik-titik cukup menyebar dan tidak selinier seperti pada R&D Spend, sehingga pengaruhnya tidak sekuat R&D Spend. Beberapa titik dengan Marketing Spend tinggi (mendekati 400.000) tetapi hanya menghasilkan profit sekitar 100.000–150.000, yang menunjukkan bahwa optimalisasi pengeluaran pemasaran beragam antar perusahaan rintisan.

4.2 Membangun Model Linier Sederhana

4.2.1 Bentuk Model Regresi Linier Sederhana


Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)

Residuals:
   Min     1Q Median     3Q    Max 
-33645  -4632   -414   6484  17097 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.698e+04  2.690e+03  17.464   <2e-16 ***
R.D.Spend       7.966e-01  4.135e-02  19.266   <2e-16 ***
Marketing.Spend 2.991e-02  1.552e-02   1.927     0.06 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared:  0.9505,    Adjusted R-squared:  0.9483 
F-statistic: 450.8 on 2 and 47 DF,  p-value: < 2.2e-16

Interpretasi:

R.D.Spend adalah prediktor utama profit, sementara Marketing.Spend pengaruhnya sangat kecil dan tidak signifikan secara statistik pada taraf signifikansi 95%.
R-squared = 0,9505, model menjelaskan 95,05% variasi pada profit — sangat tinggi.
Adjusted R-squared = 0,9483, setelah menyesuaikan jumlah variabel hasilnya 94,83%.
F-statistic = 450,8 dengan p-value < 2,2e-16, maka disimpulkan model secara keseluruhan sangat signifikan.

4.2.2 Persamaan Model yang Diperoleh

    (Intercept)       R.D.Spend Marketing.Spend 
   4.697586e+04    7.965840e-01    2.990788e-02 
Profit = 46975.86 + 0.7966 * R.D.Spend + 0.0299 * Marketing.Spend

Interpretasi:

Maka Persamaan Regresi Linier:

\[\hat{Y} = 46975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\]

di mana \(X_1\) adalah R.D.Spend, \(X_2\) adalah Marketing.Spend, dan \(\hat{Y}\) adalah Profit.

4.2.3 Interpretasi Koefisien Regresi

Intercept (46.975,86): Jika R&D Spend dan Marketing Spend bernilai nol, maka estimasi profit adalah sebesar 46.975,86.
Koefisien R&D Spend atau \(X_1\) (0,7966): Setiap kenaikan 1 satuan R&D Spend akan meningkatkan profit rata-rata sebesar 0,7966, dengan asumsi Marketing Spend tetap.
Koefisien Marketing Spend atau \(X_2\) (0,0299): Setiap kenaikan 1 satuan Marketing Spend hanya meningkatkan profit rata-rata sebesar 0,0299, dengan asumsi R&D Spend tetap. Pengaruhnya tidak signifikan pada tingkat kepercayaan 95% (p = 0,06), sehingga secara statistik tidak cukup bukti bahwa Marketing Spend berpengaruh terhadap profit.

4.3 Uji Signifikansi Model


Call:
lm(formula = Profit ~ R.D.Spend + Marketing.Spend, data = startup)

Residuals:
   Min     1Q Median     3Q    Max 
-33645  -4632   -414   6484  17097 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     4.698e+04  2.690e+03  17.464   <2e-16 ***
R.D.Spend       7.966e-01  4.135e-02  19.266   <2e-16 ***
Marketing.Spend 2.991e-02  1.552e-02   1.927     0.06 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9161 on 47 degrees of freedom
Multiple R-squared:  0.9505,    Adjusted R-squared:  0.9483 
F-statistic: 450.8 on 2 and 47 DF,  p-value: < 2.2e-16

4.3.1 Uji Signifikansi Model Secara Simultan (Uji F)

Hipotesis:

\(H_0 : \beta_1 = \beta_2 = 0\) (tidak ada pengaruh signifikan dari R.D.Spend dan Marketing.Spend secara simultan terhadap Profit)
\(H_1\) : minimal ada satu \(\beta_j \neq 0\) (ada pengaruh signifikan secara simultan terhadap Profit)

Statistik Uji:
F-statistic = 450,8
Derajat Bebas: \(df_1 = 2\), \(df_2 = 47\)
p-value < 2,2e-16

Keputusan: Karena p-value < 0,05, maka Tolak \(H_0\)

Kesimpulan: Maka secara simultan, variabel R.D.Spend dan Marketing.Spend bersama-sama berpengaruh secara signifikan terhadap Profit pada tingkat signifikansi 5%.

4.3.2 Uji Signifikansi Model secara Parsial (Uji t)

a. Variabel R.D.Spend

Hipotesis:

\(H_0 : \beta_1 = 0\) (R.D.Spend tidak berpengaruh signifikan terhadap Profit)
\(H_1 : \beta_1 \neq 0\) (R.D.Spend berpengaruh signifikan terhadap Profit)

t-value: 19,266
p-value: < 0,0000000000000002

Keputusan: p-value (0,0000000000000002) < 0,05, maka Tolak \(H_0\)

Kesimpulan: Pada taraf signifikansi 5%, R.D.Spend berpengaruh signifikan terhadap Profit.

b. Variabel Marketing.Spend

Hipotesis:

\(H_0 : \beta_2 = 0\) (Marketing.Spend tidak berpengaruh signifikan terhadap Profit)
\(H_1 : \beta_2 \neq 0\) (Marketing.Spend berpengaruh signifikan terhadap Profit)

t-value: 1,927
p-value: 0,06

Keputusan: p-value = 0,06 > 0,05, maka Gagal tolak \(H_0\)

Kesimpulan: Pada taraf signifikansi 5%, Marketing.Spend tidak berpengaruh signifikan terhadap Profit.

4.4 Uji Asumsi Regresi

4.4.1 Interpretasi Plot Diagnostik

a. Residuals vs Fitted
Tujuan: Memeriksa linearitas dan homoskedastisitas.
Interpretasi: Residual tersebar acak di sekitar 0 tanpa pola tertentu, maka asumsi linearitas terpenuhi.

b. Normal Q-Q Residuals
Tujuan: Memeriksa normalitas residual.
Interpretasi: Titik-titik mendekati garis diagonal, maka residual berdistribusi normal. Penyimpangan di ujung berbentuk ekor panjang menunjukkan deviasi dari normalitas.

c. Scale-Location
Tujuan: Memeriksa homoskedastisitas.
Interpretasi: Garis horizontal mendatar, maka ragam konstan sehingga asumsi terpenuhi.

d. Residuals vs Leverage
Tujuan: Mendeteksi titik pengaruh.
Interpretasi: Titik di luar kurva Cook’s distance (garis putus-putus) menunjukkan observasi berpengaruh besar. Pada grafik tidak ada titik yang melewati garis 0,5, maka tidak ada titik yang sangat mengganggu model.

Maka model regresi linier berganda dengan prediktor R.D.Spend dan Marketing.Spend telah memenuhi seluruh asumsi klasik, sehingga hasil estimasi koefisien, uji signifikansi, dan prediksi dapat diinterpretasikan secara valid dan andal.

4.4.2 Uji Heteroskedastisitas


    studentized Breusch-Pagan test

data:  model
BP = 2.8431, df = 2, p-value = 0.2413

Hipotesis:

\(H_0\): Tidak terjadi heteroskedastisitas (ragam residual konstan / homoskedastisitas)
\(H_1\): Terjadi heteroskedastisitas (ragam residual tidak konstan)

Keputusan: BP = 2,8431, df = 2, p-value = 0,2413
Karena p-value = 0,2413 > 0,05 (\(\alpha\) = 5%), maka Terima \(H_0\)

Kesimpulan: Dengan taraf signifikansi 5%, tidak cukup bukti untuk menyatakan bahwa terjadi heteroskedastisitas. Sehingga, asumsi homoskedastisitas terpenuhi.

4.4.3 Uji Autokorelasi


    Durbin-Watson test

data:  model
DW = 1.2567, p-value = 0.001819
alternative hypothesis: true autocorrelation is greater than 0

Hipotesis:

\(H_0\): Tidak terjadi autokorelasi positif (\(\rho = 0\))
\(H_1\): Terjadi autokorelasi positif (\(\rho > 0\))

Keputusan: DW = 1,2567, p-value = 0,001819
Karena p-value = 0,001819 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)

Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa terjadi autokorelasi positif pada residual model.

4.4.4 Uji Multikolinieritas

      R.D.Spend Marketing.Spend 
       2.103206        2.103206

Hipotesis:

\(H_0\): Tidak terjadi multikolinieritas berat antar variabel prediktor (VIF < ambang batas, misalnya VIF < 5 atau VIF < 10)
\(H_1\): Terjadi multikolinieritas berat antar variabel prediktor (VIF \(\geq\) ambang batas)

Keputusan: R.D.Spend = 2,103206, Marketing.Spend = 2,103206
Nilai VIF < 5 dan < 10, maka Terima \(H_0\)

Kesimpulan: Dengan menggunakan ambang batas VIF < 5 (atau < 10), tidak terdapat masalah multikolinieritas antara R.D.Spend dan Marketing.Spend. Kedua variabel prediktor memberikan kontribusi yang cukup terhadap variabel respon Profit.

4.4.5 Uji Normalitas

4.4.5.1 Uji Shapiro-Wilk


    Shapiro-Wilk normality test

data:  model$residuals
W = 0.93717, p-value = 0.01042

Hipotesis:

\(H_0\): Residual berdistribusi normal
\(H_1\): Residual tidak berdistribusi normal

Keputusan: W = 0,93717, p-value = 0,01042
Karena p-value = 0,01042 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)

Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa residual tidak berdistribusi normal.

4.4.5.2 Uji Jarque-Bera


    Jarque Bera Test

data:  model$residuals
X-squared = 21.161, df = 2, p-value = 2.541e-05

Hipotesis:

\(H_0\): Residual berdistribusi normal
\(H_1\): Residual tidak berdistribusi normal

Keputusan: X-squared = 21,161, df = 2, p-value = 0,00002541
Karena p-value = 0,00002541 < 0,05 (\(\alpha\) = 5%), maka Tolak \(H_0\)

Kesimpulan: Dengan taraf signifikansi 5%, terdapat bukti yang cukup untuk menyatakan bahwa residual tidak berdistribusi normal.

4.5 Kesimpulan Hasil Analisis Regresi

Berdasarkan seluruh hasil analisis regresi linier berganda yang telah dilakukan terhadap dataset 50 Startups, diperoleh model persamaan regresi sebagai berikut: \(\hat{Y} = 46.975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\), di mana \(X_1\) merupakan R.D.Spend dan \(X_2\) merupakan Marketing.Spend. Model tersebut mampu menjelaskan sebesar 95,05% variasi pada variabel Profit (\(R^2 = 0{,}9505\)), yang menunjukkan bahwa kedua variabel prediktor secara bersama-sama memiliki kemampuan yang sangat kuat dalam menjelaskan besarnya profit perusahaan startup.

Berdasarkan uji signifikansi secara simultan (Uji F), diperoleh nilai F-statistic sebesar 450,8 dengan p-value < 2,2e-16, sehingga dapat disimpulkan bahwa model secara keseluruhan signifikan pada taraf 5%. Artinya, R.D.Spend dan Marketing.Spend secara bersama-sama berpengaruh nyata terhadap Profit. Sementara itu, pada uji signifikansi secara parsial (Uji t), variabel R.D.Spend terbukti berpengaruh signifikan terhadap Profit dengan t-value sebesar 19,266 dan p-value < 0,0000002, sedangkan variabel Marketing.Spend tidak berpengaruh signifikan secara individual dengan p-value sebesar 0,06 yang melebihi taraf signifikansi 5%.

Pada pengujian asumsi klasik, asumsi homoskedastisitas terpenuhi berdasarkan uji Breusch-Pagan dengan nilai BP = 2,8431 dan p-value = 0,2413 yang lebih besar dari 0,05. Begitu pula asumsi multikolinieritas terpenuhi karena nilai VIF kedua variabel prediktor sebesar 2,103 yang jauh di bawah ambang batas 5 maupun 10, sehingga tidak terdapat masalah multikolinieritas antar variabel prediktor. Namun, terdapat dua pelanggaran asumsi. Pertama, uji Durbin-Watson menunjukkan adanya autokorelasi positif pada residual model dengan p-value = 0,001819 yang lebih kecil dari 0,05. Kedua, uji normalitas residual melalui Shapiro-Wilk (p-value = 0,01042) dan Jarque-Bera (p-value = 0,000025) sama-sama menghasilkan bahwa residual tidak berdistribusi normal.

Maka, dapat disimpulkan bahwa model regresi memiliki kemampuan prediksi yang sangat baik dengan \(R^2\) sebesar 95,05% dan signifikan secara statistik, kemudian pelanggaran pada asumsi autokorelasi dan normalitas residual yang menyebabkan hasil perlu diinterpretasikan dengan hati-hati. Untuk meningkatkan kualitas model dilakukan transformasi variabel untuk mengatasi non-normalitas, penerapan metode Generalized Least Squares (GLS) untuk menangani autokorelasi.

5 BAB V KESIMPULAN

Berdasarkan hasil analisis regresi linier berganda yang telah dilakukan terhadap dataset 50 Startups menggunakan software R, dapat disimpulkan sebagai berikut.

Pertama, model regresi linier berganda yang terbentuk adalah \(\hat{Y} = 46.975{,}86 + 0{,}7966 \, X_1 + 0{,}0299 \, X_2\), di mana \(X_1\) merupakan R.D.Spend dan \(X_2\) merupakan Marketing.Spend sebagai variabel independen, serta Profit sebagai variabel dependen. Model tersebut memiliki nilai \(R^2\) sebesar 0,9505 yang berarti sebesar 95,05% variasi Profit mampu dijelaskan oleh kedua variabel prediktor dalam model. Nilai Adjusted \(R^2\) sebesar 0,9483 juga menunjukkan bahwa kemampuan model tetap sangat tinggi setelah mempertimbangkan jumlah variabel yang diikutsertakan, sehingga model dapat dikatakan memiliki daya prediksi yang sangat baik.

Kedua, pengujian signifikansi secara simultan melalui Uji F menghasilkan nilai F-statistic sebesar 450,8 dengan p-value < 2,2e-16. Karena p-value jauh di bawah taraf signifikansi 5%, dapat disimpulkan bahwa variabel R.D.Spend dan Marketing.Spend secara bersama-sama berpengaruh nyata terhadap Profit. Sementara itu, hasil uji parsial (Uji t) menunjukkan bahwa R.D.Spend merupakan prediktor yang dominan dengan t-value sebesar 19,266 dan p-value yang sangat kecil (< 0,0000002), sehingga terbukti signifikan secara statistik. Sebaliknya, Marketing.Spend tidak berpengaruh signifikan secara individual dengan p-value sebesar 0,06 yang melebihi taraf signifikansi 5%, sehingga pengaruhnya tidak cukup kuat bila dikendalikan oleh R.D.Spend.

Ketiga, pada pengujian asumsi klasik, beberapa asumsi terpenuhi dengan baik. Asumsi homoskedastisitas terkonfirmasi melalui uji Breusch-Pagan dengan nilai BP = 2,8431 dan p-value = 0,2413 (> 0,05), yang berarti ragam residual bersifat konstan. Asumsi multikolinieritas juga terpenuhi karena nilai VIF untuk kedua variabel prediktor sama-sama sebesar 2,103, yang jauh di bawah ambang batas 5 maupun 10, sehingga tidak terdapat korelasi berlebihan antar variabel independen.

Keempat, terdapat dua pelanggaran asumsi klasik yang perlu diketahui. Uji Durbin-Watson mendeteksi adanya autokorelasi positif pada residual model dengan nilai DW = 1,2567 dan p-value = 0,001819 (< 0,05). Selain itu, kedua uji normalitas residual, yakni Shapiro-Wilk (p-value = 0,01042) dan Jarque-Bera (p-value = 0,00002541), secara konsisten menolak hipotesis nol bahwa residual berdistribusi normal. Adanya dua pelanggaran ini menunjukkan bahwa meskipun model memiliki kemampuan prediksi yang tinggi, hasil statistik seperti uji hipotesis dan interval kepercayaan perlu diinterpretasikan secara lebih hati-hati.

Secara keseluruhan, analisis ini menunjukkan bahwa investasi pada R&D merupakan faktor penentu dalam meningkatkan profit perusahaan startup, sedangkan pengeluaran pemasaran memberikan kontribusi yang relatif kecil dan tidak signifikan secara statistik bila dikendalikan oleh faktor R&D. Untuk meningkatkan kualitas model ke depannya, disarankan untuk melakukan transformasi variabel untuk mengatasi permasalahan non-normalitas, serta menggunakan metode Generalized Least Squares (GLS) atau Cochrane-Orcutt untuk menangani autokorelasi yang terdeteksi pada residual model.

6 DAFTAR PUSTAKA

Veerakumar, K. (2018). Startup — Multiple linear regression [Dataset]. Kaggle. https://www.kaggle.com/datasets/karthickveerakumar/startup-logistic-regression

Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica: Journal of the Econometric Society, 1287–1294.

Draper, N. R., & Smith, H. (1998). Applied regression analysis (Vol. 326). John Wiley & Sons.

Durbin, J., & Watson, G. S. (1951). Testing for serial correlation in least squares regression. Biometrika, 38(1–2), 159–177.

Fox, J., & Weisberg, S. (2018). An R companion to applied regression. Sage Publications.

Gujarati, D. N. (2004). Basic econometrics. McGraw-Hill.

Hair Jr, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis. Pearson.

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to linear regression analysis. John Wiley & Sons.

O’Brien, R. M. (2007). A caution regarding rules of thumb for variance inflation factors. Quality & Quantity, 41(5), 673–690.

Razali, N. M., & Wah, Y. B. (2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics, 2(1), 21–33.

Sievert, C. (2020). Interactive web-based data visualization with R, plotly, and shiny. Chapman and Hall/CRC.

Zeileis, A., & Hothorn, T. (2002). Diagnostic checking in regression relationships. R News, 2(3), 7–10.

ANALISIS REGRESI LINIER BERGANDA DATA STARTUPS

Verina Nuraidah Irninda

2026

1 BAB I STUDI KASUS

1.1 Ketentuan Data

1.2 Langkah Analisis

2 BAB II TINJAUAN PUSTAKA

2.1 Regresi Linier Berganda

2.2 Uji Signifikansi Model

2.3 Uji Asumsi Klasik Regresi

2.4 Dataset 50 Startups

2.5 Software R dalam Analisis Regresi

3 BAB III SOURCE CODE DAN PENJELASAN

3.1 Eksplorasi Data

3.2 Membangun Model Regresi Linier Sederhana

3.3 Uji Signifikansi Model

3.4 Uji Asumsi Regresi

4 BAB IV HASIL DAN PEMBAHASAN

4.1 Eksplorasi Data

4.1.1 Ringkasan Statistik Deskriptif

4.1.2 Scatter Plot antara Variabel X dan Y

4.2 Membangun Model Linier Sederhana

4.2.1 Bentuk Model Regresi Linier Sederhana

4.2.2 Persamaan Model yang Diperoleh

4.2.3 Interpretasi Koefisien Regresi

4.3 Uji Signifikansi Model

4.3.1 Uji Signifikansi Model Secara Simultan (Uji F)

4.3.2 Uji Signifikansi Model secara Parsial (Uji t)

4.4 Uji Asumsi Regresi

4.4.1 Interpretasi Plot Diagnostik

4.4.2 Uji Heteroskedastisitas

4.4.3 Uji Autokorelasi

4.4.4 Uji Multikolinieritas

4.4.5 Uji Normalitas

4.4.5.1 Uji Shapiro-Wilk

4.4.5.2 Uji Jarque-Bera

4.5 Kesimpulan Hasil Analisis Regresi

5 BAB V KESIMPULAN

6 DAFTAR PUSTAKA