Analisis Regresi Berganda

Bramanthya Winarto

3 June 2024

Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Statistika merupakan ilmu yang mempelajari tentang data, mulai dari pengumpulan data dan penyusunan data, hingga kemudian data dianalisis sehingga menghasilkan suatu informasi yang berguna. Statistika seperti ilmu banyak ilmu lainnya terus berkembang sepanjang waktu dan sepanjang zaman, perkembangan ilmu statistika dapat dikatakan berkembang bersamaan dengan perkembangan sejarah manusia. Pada zaman kini Ilmu statistika mulai mengalami perkembangan pesat dengan ditunjukkannya pengaplikasian statistika dalam banyak bidang kehidupan sebut saja sosial, kesehatan, pemerintahan, ekonomi, dan banyak bidang lagi.

Dewasa ini data merupakan bukti ilmiah yang dapat dipercaya dikarenakan dalam data itu terkandung informasi dan fakta mengenai suatu kondisi, sebab itu banyak peneliti menggunakan data untuk menjawab permasalahan dalam masalah yang ditelitinya. Peranan statistika begitu penting dalam mengolah data-data tersebut hingga dapat diperoleh hasil yang sesuai dengan tujuan penelitian serta akan menghasilkan informasi yang sahih apabila memperhatikan tata cara analisis data yang digunakan.

Sering kali peneliti ingin mengetahui juga memprediksi mengapa suatu kejadian bisa terjadi dan faktor apa saja yang mempengaruhi sehingga kejadian tersebut dapat terjadi sedemikian rupa. Bila hubungan antara faktor penyebab kejadian dan kejadian ini dapat dinyatakan dalam suatu persamaan matematik, maka peneliti dapat menggunakannya untuk keperluan prediksi. Persamaan matematik demikia yang memungkinkan kita untuk meramal/memprediksi suatu peubah tak bebas(kejadian) dari nilai-nilai satu atau lebih peubah bebas(faktor penyebab kejadian) disebut persamaan regresi(Walpole,1995), dengan metodenya yaitu analisis regresi.

Ketika melakukan analisis data, seringkali peneliti menggunakan suatu alat bantu berupa software-software statistika. penggunan software statistik memudahkan peneliti ataupun pengguna statistik dalam menganalisis data dikarenakan banyak dan lengkapnya metode analisis yang dapat dilakukan dalam software, mudahnya penggunaan software, dan hasil analisis yang cepat terproses karena segala perhitungan dilakukan dengan komputer.

Dewasa ini, banyak sekali software-software statistika untuk melakukan berbagai macam metode analisis dan pengolahan data, diantaranya adalah R-studio. R-studio merupakan software open-source gratis yang dapat diakses oleh siapapun dan dapat dikembangkan oleh siapapun. R-studio mempunyai cukup program untuk mengolah data menggunakan berbagai macam metode analisis, tidak terkecuali metode analisis regresi. Namun peneliti perlu memahami dasar-dasar analisis regresi serta pemahaman akan penggunaan software statistik sehingga analisis yang dilakukan sesuai. Oleh karena itu, akan dilakukan tata cara melakukan analisis regresi linier berganda dengan asumsi dan juga penanganannya menggunakan software R-Studio.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi Linear

Analisis regresi adalah suatu teknik statistika untuk pemeriksaan dan pemodelan hubungan antar variabel(Effendi,2016). Variabel yang akan dimodelkan dalam analisis regresi dapat diklasifikasikan menjadi dua variabel :

  1. Variabel Respon atau variabel dependent (Y) , merupakan variabel tidak bebas yang akan diamati berdasarkan pengaruh variabel lain.

  2. Variabel prediktor atau variabel independent (X), merupakan variabel bebas yang nilainya telah diketahui dan akan diamati pengaruhnya terhadap variabel respon.

Tujuan dari analisis regresi adalah untuk meramalkan Y berdasarkan pengaruh X. Setelah memutuskan menggunakan analisis regresi, kita menghadapi masalah bagaimana memperoleh model matematik untuk menentukan dugaan bagi Y. Untuk ini akan digunakan prosedur Metode Kuadrat Terkecil (MKT) yaitu dengan meminimumkan jumlah kuadrat dari galat dan menurunkan persamaan normal yang disamadengankan dengan nol.

Secara umum regresi linear dimodelkan sebagai berikut :

\[ Y = \beta_{0} + \beta_{1}X_{1} + \varepsilon \]

Dengan metode MKT dari model umum regresi linear akan dapat dilakukan estimasi parameter untuk memperoleh model regresi linier yang akan digunakan dalam analisis. Dengan metode MKT akan diperoleh model pendugaan regresi yaitu :

\[ \hat{Y} = b_{0} + b_{1}x_{1} \]

keterangan

\(\hat{Y}\) = nilai pendugaan Y

\(b_{0}\) = penduga parameter \(\beta_{0}\)

\(b_{1}\) = penduga parameter \(\beta_{1}\)

2.2 Analisis Regresi Linear Berganda

Sama seperti dengan analisis regresi linear pada pembahasan barusan, regresi linear berganda merupakan model yang menjelaskan hubungan satu variabel respon (Y) dengan dua atau lebih variabel prediktor ( X1 , X2 , … , Xn ). Tujuan dari analisis regresi linear berganda adalah untuk mengestimasi nilai variabel respon (Y) apabila nilai variabel-variabel prediktor ( X1 , X2 , … , Xn ) diketahui.

Bentuk umum model regresi linear berganda dengan diketahui terdapat k variabel prediktor adalah :

\[ Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + ... + \beta_{k}X_{k} + \varepsilon \]

keterangan

Y = variabel respon

X1 , X2 , … , Xn = Variabel-variabel independen

β0,β1,β2,…,βn = Parameter-parameter populasi

Seperti pada analisis regresi linear sederhana, estimasi parameter pada regresi berganda dapat dilakukan dengan metode MKT untuk diperoleh model yang akan digunakan dalam analisis. MKT dalam model regresi linear berganda merupakan metode dengan memanfaatkan turunan parsial \(\Sigma\varepsilon_{i}^2\) yang diturunkan terhadap parameter-parameter yang ada. Estimasi parameter untuk model regresi linier berganda lebih banyak didekati dengan penerapan matriks yang dapat ditulis dengan rumus

\[ \beta = (X^TX)^{-1} (X^TY) \]

sehingga akan didapatkan persamaan berikut :

\[ y_i = b_0 +b_1x_1 +b_2x_2 +...+b_kx_k \]

2.3 Asumsi-Asumsi Klasik

Dalam analisis regresi linear baik sederhana maupun berganda terdapat beberapa asumsi yang harus terpenuhi untuk membuktikan bahwa model yang telah diperoleh dari hasil analisis merupakan model yang layak untuk dilakukan peramalan atau estimasi seperti halnya tujuan awal dilakukan analisis regresi. Asumsi-asumsi yang harus terpenuhi tersebut adalah sebagai berikut

2.3.1 Asumsi Normalitas Galat

Asumsi normalitas galat memyatakan bahwa galat dari suatu model regresi di dalam sampel berdistribusi normal. Dalam hal ini, normalitas galat berarti bahwa galat-galat berdistribusi secara simetris disekitar nol, dengan sebagian besar galat berada pada sekitar titik nol. Apabila asumsi galat tidak terpenuhi maka hasil analisis regresi dapat menjadi bias Untuk menguji normalitas dapat dilakukan dengan beberapa uji yaitu uji Kolmogorov-smirnov, uji Shapiro-Wilk atau uji Lilliefors.

2.3.2 Asumsi Non Multikolinieritas

Asumsi non multikolinieritas menyatakan bahwa tidak ada hubungan linier antara variabel prediktor. Multikolinieritas dapat terjadi jika ada korelasi tinggi antara variabel prediktor. Apabila asumsi ini tidak terpenuhi akan menyebabkan sulitnya menentukan signifikansi tiap variabel prediktor terhadap pengaruhnya terhadap variabel respon. Multikolinieritas dapat diketahui dengan menghitung nilai Variance Inflation Factor (VIF). korelasi yang tinggi antara variabel prediktor akan menyebabkan nilai VIF nya menjadi besar. Umumnya nilai VIF > 10 dapat digunakan sebagai bukti bahwa model memiliki multikolinieritas. \[ VIF_k = \frac{1}{1-R^2_k} \]

k = banyaknya variabel prediktor

2.3.3 Asumsi Homoskedatisitas

Asumsi homoskedatisitas menyatakan bahwa keadaan ragam galat pada model regresi homogen. Jika tidak terpenuhinya asumsi homoskedatisitas menandakan bahwa terdapat ketidaksamaan varian dari galat untuk semua pengamatan dari model regresi. Uji yang akan dilakukan untuk asumsi ini adalah uji Breusch Pagan Godfrey.

2.3.4 Asumsi linearitas

Asumsi linearitas menyatakan bahwa hubungan antara variabel prediktor (X) dan variabel respon (Y) merupakan hubungan linier. Bila asumsi tidak terpenuhi akan mengurangi validasi model regresi yang diperoleh. Uji yang akan digunakan untuk uji linearitas adalah uji reset.

2.3.5 Asumsi Autokorelasi

Uji Autokorelasi dilakukan untuk mengetahui adakah korelasi variabel yang ada di dalam model prediksi dengan perubahan waktu. Uji yang digunakan adalah uji durbin watson untuk menilai adanya autokorelasi pada residual. Uji durbin watson akan menghasilkan nilai Durbin Watson (DW) yang nantinya akan dibandingkan dengan dua nilai durbin Watson tabel, yaitu durbin Upper (DU) dan durbin Lower (DL).

2.4 Pengujian Parameter Regresi

2.4.1 Uji Simultan

Uji simultan atau uji F digunakan untuk menguji pengaruh secara bersama-sama seluruh variabel prediktor yang diuji terhadap variabel respons. Hipotesis yang digunakan adalah sebagai berikut:

\[ H_0 : \beta_1 = \beta_2 = ... = \beta_{k-1} = 0 \]

\[ VS \]

\[ H_1 : \beta_k tidak sama dengan 0 \]

2.4.2 Uji Parsial

Uji t digunakan untuk pengujian koefisien regresi secara parsial. Masing-masing variabel prediktor diuji untuk diketahui pengaruhnya terhadap variabel respons.

\[ H_0 : \beta_i = 0 \]

\[ VS \]

\[ H_1 : \beta_i tidak sama dengan 0 \]

2.5 Koefisien Determinasi ( \(R^2\) )

Koefisien Determinasi merupakan suatu besaran yang menjelaskan seberapa besar keragaman variabel respon (Y) dapat dijelaskan oleh variabel prediktor. Nilai koefisien determinasi dapat digunakan juga untuk menguji kebaikan model regresi yang dimiliki. Rumus koefisien determinasi ( \(R^2\) ) adalah :

\[ R^2 = 1 - \frac{SSE}{SST} \]

\[ R^2 = 1 - \frac{\Sigma{Y_i-\hat{Y}_i}}{\Sigma{Y_i-\bar{Y}}} \]

\[ 0 <= R^2 <= 1 \]

3 SOURCE CODE

3.1 Library

> # Library
> library(nortest)
> library(tseries)
> library(car)
> library(lmtest)

3.2 Data

> library(readr)
> DataRpubs <- read_csv("C:/Users/brama/Downloads/multiple_linear_regression_dataset.csv")
X1 X2 Y
25 1 30450
30 3 35670
47 2 31580
32 5 40130
43 10 47830
51 7 41630
28 5 41340
33 4 37650
37 5 40250
39 8 45150
29 1 27840
47 9 46110
54 5 36720
51 4 34800
44 12 51300
41 6 38900
58 17 63600
23 1 30870
44 9 44190
37 10 48700

Dimana

\(X_1\) : Umur (tahun)

\(X_2\) : Lama pengalaman kerja (tahun)

\(Y\) : Pendapatan ($)

Sumber : Data yang digunakan merupakan dataset dari website kaggle

3.3 Analisis Regresi Berganda

> Y <- DataRpubs$income
> X1 <- DataRpubs$age
> X2 <- DataRpubs$experience
> 
> regresi <- lm(Y~X1+X2)
> regresi

Call:
lm(formula = Y ~ X1 + X2)

Coefficients:
(Intercept)           X1           X2  
    31261.7        -99.2       2162.4  

3.4 UJI ASUMSI

3.4.1 UJI NORMALITAS (Uji lilliefors)

> library(nortest)
> lillie.test(regresi$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  regresi$residuals
D = 0.092472, p-value = 0.9253

3.4.2 Uji Non Multikolinieritas

> library(car)
> library(carData)
> vif(regresi)
      X1       X2 
1.608825 1.608825 

3.4.3 Uji Homoskedatisitas (Uji Breusch Pagan)

> library(lmtest)
> bptest(regresi)

    studentized Breusch-Pagan test

data:  regresi
BP = 1.6658, df = 2, p-value = 0.4348

3.4.4 Uji linearitas

> library(lmtest)
> reset(regresi)

    RESET test

data:  regresi
RESET = 6.9685, df1 = 2, df2 = 15, p-value = 0.007241

3.4.5 Uji Autokorelasi

> durbinWatsonTest(regresi)
 lag Autocorrelation D-W Statistic p-value
   1       0.1778392      1.627695   0.372
 Alternative hypothesis: rho != 0

3.5 Uji Signifikansi Parameter dan Koefisien Determinasi ( \(R^2\) )

> summary(regresi)

Call:
lm(formula = Y ~ X1 + X2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2707.43  -584.21    25.85   925.75  2043.76 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 31261.69    1306.44  23.929 1.57e-14 ***
X1            -99.20      38.98  -2.545   0.0209 *  
X2           2162.40      94.77  22.817 3.44e-14 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1343 on 17 degrees of freedom
Multiple R-squared:  0.9773,    Adjusted R-squared:  0.9747 
F-statistic: 366.5 on 2 and 17 DF,  p-value: 1.048e-14

4 HASIL DAN PEMBAHASAN

4.1 Model Regresi

Berdasarkan hasil output diperoleh model regresi berganda adalah :\[ y = 31261.69 - 99.2x_1 + 2162.4x_2 \]

Interpretasi Model :

  • \(b_0\) bermakna jika variabel \(X_1\) (umur) dan \(X_2\) (pengalaman) bernilai nol atau tidak mengalami kenaikan nilai maka pendapatan seseorang akan sebesar $31261.69

  • \(b_1\) bermakna setiap kenaikan umur sebesar 1 tahun akan mengurangi pendapatan seseorang sebesar $99.2

  • \(b_2\) bermakna setiap kenaikan pengalaman kerja sebesar 1 tahun akan menambah pendapatan seseorang sebesar $2162.4

4.2 Pengujian Asumsi

4.2.1 Uji Normalitas

Hipotesis :

\(H_0\) : Galat berdistribusi normal

\(H_1\) : Galat tidak berdistribusi normal

Alpha = 0.05

Hasil pengujian :

\[ Pvalue = 0.9253 \]

Interpretasi : Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.9523, sehingga karena alpha (0,05) < Pvalue(0.9523) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan galat menyebar secara normal sehingga asumsi normalitas terpenuhi

4.2.2 Uji NonMultikolinieritas

> library(knitr)
> kable(vif(regresi),col.names = "NIlai VIF")
NIlai VIF
X1 1.608825
X2 1.608825

Interpretasi : Berdasarkan output diperoleh nilai VIF untuk kedua variabel prediktor bernilai > 10. Sehingga dapat disimpulkan bahwa tidak terjadi multikolinieritas atau asumsi terpenuhi.

4.2.3 Uji Homoskedatisitas

Hipotesis:

\(H_0\) : Tidak terjadi heteroskedatisitas

\(H_1\) : Terjadi heteroskedatisitas

Alpha = 0.05

Hasil Pengujian R-Studio:

\[ P_-value = 0.4348 \]

Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.4348, sehingga karena alpha (0,05) < Pvalue(0.4348) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan tidak terjadinya kasus heteroskedatisitas sehingga asumsi terpenuhi.

4.2.4 Uji Linieritas

Hipotesis:

\(H_0\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) memiliki hubungan non-linier terhadap variabel respon (Y)

\(H_1\) : Variabel-variabel prediktor ( \(X_1,X_2\) ) memiliki hubungan linier terhadap variabel respon (Y)

Alpha = 0.05

Hasil Pengujian R-Studio:

\[ P_-value = 0.007241\]

Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.007241, sehingga karena alpha (0,05) > Pvalue(0.007241) keputusan yang diterima adalah tolak \(H_0\) . Dapat disimpulkan bahwa Variabel-variabel prediktor ( \(X_1,X_2\) ) memiliki hubungan linier terhadap variabel respon (Y) atau asumsi terpenuhi.

4.2.5 Uji NonAutokorelasi

Hipotesis:

\(H_0\) : Tidak terjadi autokorelasi

\(H_1\) : Terjadi autokorelasi

Alpha = 0.05

Hasil Pengujian R-Studio:

\[ P_-value = 0.41\]

Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.41, sehingga karena alpha (0,05) < Pvalue(0.41) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan tidak terjadinya kasus autokorelasi atau asumsi terpenuhi.

4.3 Uji Signifikansi Parameter

4.3.1 Uji Simultan

Hipotesis:

\(H_0\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) tidak berpengaruh signifikan secara simultan terhadap variabel respon (Y)

\(H_1\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) berpengaruh signifikan secara simultan terhadap variabel respon (Y)

Alpha = 0.05

Hasil Pengujian R-Studio:

\[ P_-value = 1.048e-14\]

Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.41, sehingga karena alpha (0,05) > Pvalue(1.048e-14) keputusan yang diterima adalah tolak \(H_0\) . Dengan demikian dapat disimpulkan minimal salah satu variabel prediktor ( \(X_1,X_2\) ) berpengaruh signifikan terhadap variabel respon (Y)

4.3.2 Uji Parsial

Hipotesis Uji parameter b1

\(H_0\) : Variabel \(X_1\) tidak berpegaruh signifikan terhadap variabel respon (Y)

\(H_1\) : Variabel \(X_1\) berpegaruh signifikan terhadap variabel respon (Y)

Hipotesis Uji parameter b2

\(H_0\) : Variabel \(X_2\) tidak berpegaruh signifikan terhadap variabel respon (Y)

\(H_1\) : Variabel \(X_2\) berpegaruh signifikan terhadap variabel respon (Y)

Alpha = 0.05

> library(knitr)
>  hasilreg <- summary(regresi)
>  kable(head(hasilreg$coefficients))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31261.68985 1306.43659 23.928976 0.0000000
X1 -99.19536 38.97863 -2.544865 0.0209298
X2 2162.40419 94.76983 22.817433 0.0000000

Interpretasi :

  • Variabel \(X_1\)

    Berdasarkan hasil output R-studio, diperoleh nilai Pvalue untuk variabel \(X_1\) sebesar 0.0209298 dimana pvalue < alpha, sehingga keputusan yang diterima adalah tolak \(H_0\) . Karena itu, dapat disimpulkan dengan tingkat keyakinan 95% variabel \(X_1\) atau umur seseorang berpengaruh signifikan terhadap pendapatannya.

  • Variabel \(X_2\)

    Berdasarkan hasil output R-studio, diperoleh nilai Pvalue untuk variabel \(X_2\) mendekati 0 dimana pvalue < alpha, sehingga keputusan yang diterima adalah tolak \(H_0\) . Karena itu, dapat disimpulkan dengan tingkat keyakinan 95% variabel \(X_2\) atau lama pengalaman kerja seseorang berpengaruh signifikan terhadap pendapatannya.

    Koefisien Determinasi ( \(R^2\) )

    > cat("Nilai R^2 = ",hasilreg$r.squared,"\n",
    +     "Nilai R^2 adjusted = ",hasilreg$adj.r.squared)
    Nilai R^2 =  0.9773361 
     Nilai R^2 adjusted =  0.9746698

Dari hasil pengujian R studio diperoleh output nilai R square sebesar 0.977 , yang dapat disimpulkan variabel umur dan lama pengalaman kerja dapat menjelaskan ~ 97.7% keragaman pendapatan (Y) sedangkan sekitar 2.3% sisanya dijelaskan oleh variabel yang tidak termasuk dalam penelitian / analisis.

5 KESIMPULAN

Berdasarkan hasil pengujian regresi linear berganda dan uji asumsi klasik menggunakan data pengaruh umur dan lama pengalaman kerja terhadap pendapatan, dapat disimpulkan analisis regersi mampu menjelaskan pengaruh variabel prediktor (umur dan lama pengalaman kerja) terhadap pendapatan seseorang. Hal ini dapat dilihat dari nilai koefisien determinasi yang sangat besar hampir mendekati 1, selain dari nilai koefisen determinasi uji signifikansi parameter menunjukkan kalau seluruh variabel prediktor ( \(X_1 , X_2\) ) berpengaruh signifikan terhadap variabel responnya(Y)

Asumsi-asumsi klasik yang telah diujikan dengan R-studio memberikan hasil yang baik dimana semua uji asumsi terpenuhi yang menandakan model baik secara statistik, model tidak bias, ragam homogen dan menyebar normal, dan terbukti bahwa hubungan antar variabel adalah linier.

Namun, perlu dipertimbangkan bahwa data yang digunakan pada analisis regresi ini, merupakan dataset kaggle yang kemungkinan bukan data asli / data bangkitan. Semoga laman rpubs ini dapat membantu siapapun yang membacanya dalam menjalankan analisis regresi dengan R-studio

6 DAFTAR PUSTAKA

Effendi, Achmad , dkk. (2020). Analisis Regresi : Teori dan Aplikasi dengan R. Malang: UB Press.

Walpole, Ronald E.. (1995). Introduction to Statistics \(3^{rd}\) edition (Bambang Sumantri, penerjemah) .. PT Gramedia Pustaka Utama.