Penerapan Analisis Regresi Linier Berganda dengan R

Yanti Septika Angranita

2022

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi merupakan metode statistika yang digunakan untuk mengukur hubungan antara variabel pediktor (X) terhadap variabel respon (Y). Berdasarkan jumlah variabel prediktor, analisis regresi dibagi menjadi dua yaitu analisis regresi sederhana dan analisis regresi berganda. Analisis regresi sederhana merupakan analisis regresi yang hanya terdiri dari satu variabel prediktor dan satu variabel respon, sedangkan analisis regresi berganda memiliki dua atau lebih variabel prediktor.

Laporan praktikum ini dibuat untuk memenuhi tugas praktikum komputasi statistika kelas H, Statistika Universitas Brawijaya.

1.2 Statistika Deskriptif

Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole, 1992). Statistika deskriptif hanya memberikan informasi mengenai data dan tidak menarik kesimpulan mengenai apapun tentang gugus data induknya yang lebih besar. Statistika deskriptif biasanya disajikan dalam bentuk tabel, diagram, maupun grafik. Statistika deskriptif menunjukkan ukuran pemusatan dan ukuran penyebaran data. Ukuran pemusatan terdiri atas rata-rata, median, dan modes. Untuk ukuran penyebaran terdiri dari varian, simpangan baku, jangkauan, dan lain-lain.

1.3 Regresi Linier Ganda

Bentuk umum model regresi linier ganda dengan k variabel independen adalah \[ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 +...+ \beta_kX_k + \varepsilon \] dimana \(Y\) adalah variabel dependen, \(X_1\) , \(X_2\), …, \(X_k\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error) dan \(\beta_0\) , \(\beta_1\), …, \(\beta_k\) adalah parameter-parameter populasi yang nilainya tidak diketahui.

1.4 Uji Asumsi Klasik

Uji asumsi klasik adalah uji yang dilakukan sebelum pemrosesan data regresi (baik sederhana atau berganda) agar persamaan yang dihasilkan memenuhi kaidah Best Linear Unbiased estimator (BLUE). Jika uji asumsi klasik tidak dilakukan sebelum pemrosesan data, persamaan yang dihasilkan diragukan kemampuannya dalam menghasilkan prediksi yang akurat.

Dalam analisis regresi, ada beberapa asumsi yang harus dipenuhi agar informasi model regresi yang diperoleh sahih. Apabila salah satu asumsi model tidak terpenuhi maka tidak menjamin model yang diperoleh akan sahih. Tentu saja hal ini akan berakibat nilai duga model menjadi bias (tidak sesuai dengan kondisi real) sehingga interpretasi hasil penelitian tidak dapat dipertanggungjawabkan kebenarannya.

1.4.1 Multikolinieritas

Hubungan linier antar variabel bebas disebut dengan multikolinieritas. Hubungan tersebut tercipta karena adanya korelasi antar variabel bebas, dimana setiap ada perubahan pada suatu variabel bebas, akan mengakibatkan variabel bebas lainnya berubah.Oleh karena itu, dalam membuat regresi berganda, variabel bebas yang baik adalah variabel bebas yang mempunyai hubungan dengan variabel terikat, tetapi tidak mempunyai hubungan dengan variabel bebas lainnya.

Untuk mendeteksi Multikolinieritas yaitu menggunakan VIF (Variance Inflation Factor) dan TOL (Tolerance). Tolerance merupakan kebalikan dari VIF.

1.4.2 Normalitas

Dalam melakukan perhitungan statistik, tentu data yang kita miliki harus benar-benar mewakili populasi, sehingga hasil penelitian yang dibangun bisa digeneralisasikan pada populasi, dan sifat dari karakteristik populasi adalah berdsitribusi normal.

Untuk mendeteksi apakah data normal atau tidak, bisa menggunakan pengujian yaitu dengan Uji Chi-square, Uji Kolmogorov-Smirnov, Uji Liliefors dan Uji Shapiro Wilk.

1.4.3 Heteroskedastisitas

Homoskdeastisitas memiliki kebalikan yaitu Heteroskedastisitas. Heteroskedastisitas adalah adanya ketidaksamaan varian dari residual untuk semua pengamatan pada model regresi.

Biasanya heteroskedastisitas terjadi pada data cross section yaitu data yang diambil pada satu waktu, yang mewakili berbagai ukuran (kecil, sedang, dan besar). Oleh karena itu, cara pendeteksian adanya heterosdekastisitas yang paling mudah adalah melihat grafik atau gambar. Adapun cara lain untuk mendeteksi ada tidaknya heteroskedastitas yaitu dengan melakukan beberapa pengujian, diantaranya adalah Uji Korelasi Spearman, Uji Park, Uji White.

1.4.4 Autokorelasi

Autokorelasi atau korelasi serial merupakan suatu kondisi dimana komponen variabel random error berkorelasi berdasarkan urutan waktu (dalam data time series) atau urutan ruang (pada data cross section).

Untuk mendeteksi autokorelasi, dapat digunakan uji Durbin Watson.

1.5 Uji Simultan

Pada regresi linier berganda, uji hipotesis sangat berguna untuk mengukur kesesuaian model. Asumsi kenormalan residual tetap ada pada uji hipotesis ini. Uji signifikansi regresi diperlukan untuk mengetahui apakah terdapat hubungan linier antara respons y dengan tiap prediktor \(x_1\), \(x_2\), … \(x_k\). Hipotesis adalah

\[ H_0 : \beta_1 = \beta_2 = ... = \beta_k = 0 \] \[ H_1 : \beta_j \neq 0, paling tidak untuk 1j \]

Menolak \(H_0\) : \(\beta_j\) = 0 berarti bahwa paling tidak ada satu prediktor \(x_1\), \(x_2\), … \(x_k\) yang berkonstribusi secara signifikan pada model. Prosedur uji ini merupakan bentuk generalisasi pada uji yang digunakan dalam regresi linier sederhana. Jumlah kuadrat total \(S_{yy}\) dipartisi menjadi jumlah kuadrat regresi dan jumlah kuadrat residual, misalnya

\(S_{yy}\) = \(SS_R\) + \(SS_E\)

dan jika \(H_0\) : \(\beta_j\) = 0 benar maka \(SS_R/\)\(\sigma^2\) ~ \(X_k^2\), dimana jumlah derajat bebas \(X^2\) sama dengan jumlah variabel prediktor dalam model. Dapat juga ditunjukkan bahwa \(SS_E/\)\(\sigma^2\)~\(X^2_{n-k-1}\) dan bahwa \(SS_E\) dan \(SS_R\) saling bebas. Prosedur uji untuk \(H_0\) : \(\beta_j\) = 0 didapat dengan menghitung

\[ F_0 = \frac{SS_R / k}{SS_E / n - k - 1} = \frac{MS_R}{MS_E} \]

dan menolak \(H_0\), jika \(F_0\) > \(F_{a,k,n-k-1}\). Apabila keputusannya tolak \(H_0\), maka dapat kita simpulkan bahwa sekurang-kurangnya ada satu variabel yang berpengaruh signifikan. Biasanya prosedur ini dirangkum dalam sebuah tabel ANOVA .

ANOVA untuk Signifikansi Regresi Linier Berganda

Sumber keragaman SS df MS \(F_0\)
Regresi \(SS_R\) \(k\) \(MS_R\) \(MS_R\)/\(MS_E\)
Residual \(SS_E\) \(n-k-1\) \(MS_E\)
Total \(S_y\)\(_y\) \(n-1\)

Bila dalam pengujian hipotesis diperoleh hasil tolak \(H_0\), untuk mengetahui variabel independen mana saja yang berpengaruh signifikan dapat dicari dengan melakukan uji signifikansi secara parsial.

1.6 Uji Parsial

Uji signifikansi secara parsial digunakan untuk melihat pengaruh tiap tiap variabel independen secara sendiri sendiri terhadap variabel dependennya. Dalam regresi linear berganda hal ini perlu digunakan karena tiap tiap variabel independen memberi pengaruh yang berbeda dalam model. Hipotesis yang digunakan adalah

\[ H_0 : \beta_j = 0 \] \[ H_1 : \beta_j \neq 0 \] Jika \(H_0\) : \(\beta_j\) = 0 ditolak, maka hal ini menunjukkan bahwa prediktor \(X_j\) dapat dibuat dari model.

Statistik uji untuk hipotesis ini adalah \[ t_0 = \frac{\hat{\beta}j}{\sqrt{\hat{\sigma}^2 C{jj}}}= \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \]

dimana \(C_j\)\(j\) adalah elemen diagonal \((X'X)^{-1}\) berdasarkan \(\hat{\beta}_j\) Hipotesis awal \(H_0\) : \(\beta_j\) = 0 ditolak jika |t| > t{/2,n-k-1} dengan catatan bahwa ini merupakan uji parsial atau marginal karena koefisien regresi \(\hat{\beta}_j\) tergantung pada semua variabel prediktor \(x_i\) (i \(\neq\) j) yang ada dalam model. Dengan demikian, uji ini merupakan uji terhadap konstribusi \(x_j\) diberikan prediktor-prediktor lain dalam model.

1.7 Koefisien Determinasi

Persamaan \[ R^2 = \frac{SS_R}{S_{yy}} = 1- \frac{SS_E}{S_{yy}} \]

disebut dengan koefisien determinasi. Karena \(S_{yy}\) adalah ukuran keragaman y tanpa pengaruh variabel prediktor x dan \(SS_E\), adalah ukuran keragaman sisaan y setelah x ditentukan, \(R^2\) sering disebut proporsi keragaman yang diterangkan prediktor x. Karena \(0 \le SS_E \le S_{yy}\) maka \(0 \le R^2\le 1\). Nilai \(R^2\) dekat dengan 1 menunjukkan bahwa sebagian besar keragaman dalam y terjelaskan oleh model regresi.

1.8 Selang Kepercayaan

Untuk mendapatkan penaksir interval konfidensi koefisien regresi \(\hat{\beta}\), mesti diasumsikan bahwa error \(\varepsilon{i}\)~NID \((0, \sigma^2\)) sehingga amatan juga akan berdistribusi normal independen, \(y_i\)~NID \(( \beta_0 + \sum{j = 1}^{k}\beta_j x_{ij}, \sigma^2\)). Penaksir kuadrat terkecil \(\hat{\beta}\) merupakan kombinasi linier dari amatan-amatan, \(\hat{\beta}\)~\(N(\beta, \sigma^2(X'X)^{-1})\). Hal ini mengakibatkan distribusi marginal tiap koefisien regresi, \(\hat{\beta}j\)~\(N(\beta_j, \sigma^2, C{jj})\) dimana \(C_{jj}\) adalah elemen diagonal ke-j dari matriks \((X'X)^{-1}\). Sehingga setiap statistik

\[ \frac{\hat{\beta}j - \beta_j}{\sqrt{\hat{\sigma}^2C{jj}}} \] dimana \(j = 0,1,...,k\)

bersitribusi \(t\) dengan derajat bebas \(n-p\), dimana \(\hat{\sigma}^2\) penaksir varian error. \(100(1-\alpha)\)% interval konfidensi untuk koefisien regresi \(\beta_j, j = 0,1,...,k\) adalah

\[ \hat{\beta}j -t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \le \beta_j \le \hat{\beta}j + t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \] dengan standar error koefisien regresi \[ \hat{\beta}j, se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 C{jj}} \]

1.9 Data

Data yang digunakan yaitu

> library(readxl)
> Data <- read_excel("D:/Data.xlsx", col_names = TRUE)
> Data
# A tibble: 10 x 3
      X1    X2     Y
   <dbl> <dbl> <dbl>
 1    60   110    65
 2    70   120    70
 3    75   115    75
 4    80   130    75
 5    80   110    80
 6    90   120    80
 7    95   120    85
 8    95   125    95
 9   100   110    90
10   100   120    98

X1 : Presentase kehadiran di kelas

X2 : Skor IQ mahasiswa

X3 : Nilai akhir mahasiswa

2 SOURCE CODE

> n <- dim(Data)[1]
> x <- matrix(c(rep(1,n),Data$X1,Data$X2), nrow = n)
> y <- Data$Y
> k <- dim(x)[2]
> b_hat <- solve(t(x)%*%x)%*%(t(x)%*%y)
> y_hat <- x%*%b_hat
> reg <- lm(Data$Y~Data$X1+Data$X2, data = Data)

Melakukan pendugaan koefisien secara manual, namun kita juga bisa melakukannya dengan menggunakan fungsi lm().

> #pendeteksian multikolinieritas
> library(car)
> VIF <- vif(reg)
> #uji normalitas
> sisa <- residuals(reg)
> library(tseries)
> jb <- jarque.bera.test(sisa)
> shapiro <- shapiro.test(sisa)
> #uji homogenitas
> library(lmtest)
> bp <- bptest(reg)
> #uji non autokorelasi
> dw <- dwtest(reg)

Melakukan uji asumsi klasik diantaranya yaitu pendeteksian multikolinieritas dengan VIF menggunakan library car, uji normalitas dengan jarque bera test dan shapiro test menggunakan library tseries, uji homogenitas dengan Breusch-Pagan test dan autokorelasi dengan Durbin Watson test menggunakan library lmtest.

> #uji F (Simultan)
> ybar <- rep(mean(y),n)
> JKreg <-t(y_hat-ybar)%*%(y_hat-ybar)
> JKg <- t(y-y_hat)%*%(y-y_hat)
> JKt <- t(y-ybar)%*%(y-ybar)
> JK <- c(JKreg, JKg, JKt)
> dbreg <- k-1
> dbtotal <- n-1
> dbgalat <- dbtotal-dbreg
> db <- c(dbreg, dbgalat, dbtotal)
> KT <- JK/db
> sk <- c("regresi", "galat", "total")
> anreg <- data.frame(sk, JK, db, KT)
> names(anreg) <- c("SK", "JK", "db", "KT")
> F_hit <- anreg$KT[1]/anreg$KT[2]
> pf <- pf(F_hit, anreg$db[1], anreg$db[2], lower.tail = FALSE)

Melakukan uji F (simultan) dengan membuat tabel ANOVA.

> #Uji t (parsial)
> #uji t
> var_cov <-anreg$KT[2]*solve(t(x)%*%x)
> sd<-rep(0,k) 
>   for(i in 1:k){sd[i]<-sqrt(var_cov[i,i])}
> t <- b_hat/sd
> p <- 2*pt(abs(t),anreg$db[2], lower.tail=FALSE)

Kemudian melakukan uji parsial

> #KOEFISIEN DETERMINASI
> R2 <- anreg$JK[1]/anreg$JK[3]

Menghitung koefisien determinasi yang diperoleh dari JKR/JKT

> #selang kepercayaan
> alfa <-0.05
> ttab <- qt(alfa/2, anreg$db[2],lower.tail = FALSE)
> lb_sk <- b_hat-ttab*sd
> ub_sk <- b_hat+ttab*sd
> selang_kepercayaan <- cbind(lb_sk,ub_sk)

Menghitung selang kepercayaan parameter.

3 HASIL DAN PEMBAHASAN

3.1 Regresi

> b_hat
           [,1]
[1,] 23.0544545
[2,]  0.7372330
[3,] -0.0343275
> reg

Call:
lm(formula = Data$Y ~ Data$X1 + Data$X2, data = Data)

Coefficients:
(Intercept)      Data$X1      Data$X2  
   23.05445      0.73723     -0.03433  

\[ \hat{Y}=23.054 + 0.737 X_1 - 0.034 X_2 \]

  • Apabila \(X_1\) dan \(X_2\) bernilai 0 maka nilai \(\hat{Y}\) yaitu sebesar 23.054
  • Apabila terjadi kenaikan nilai \(X_1\) sebesar satu satuan dan nilai \(X_2\) dianggap bernilai 0 maka nilai \(\hat{Y}\) akan meningkat sebesar 0.737
  • Apabila terjadi kenaikan nilai \(X_2\) sebesar satu satuan dan nilai \(X_1\) dianggap bernilai 0 maka nilai \(\hat{Y}\) akan menurun sebesar 0.034

3.2 Asumsi Klasik

3.2.1 Pendeteksian Multikolinieritas

> VIF
 Data$X1  Data$X2 
1.055571 1.055571 

\(VIF_{X_1}\) = 1.055571

\(VIF_{X_2}\) = 1.055571

Keduanya dibawah 10 yang berarti tidak ada multikolinieritas.

3.2.2 Uji Normalitas

> jb

    Jarque Bera Test

data:  sisa
X-squared = 0.58528, df = 2, p-value = 0.7463
> shapiro

    Shapiro-Wilk normality test

data:  sisa
W = 0.95125, p-value = 0.6833

Uji Jarque Bera

\(H_0\) : galat menyebar normal

\(H_1\) : galat tidak menyebar normal

Nilai p-value 0.7463 cukup besar > \(\alpha\)(0.05) maka terima \(H_0\) berarti galat menyebar normal, sehingga asumsi normalitas galat masih terpenuhi.

Uji Shapiro Wilk

\(H_0\) : galat menyebar normal

\(H_1\) : galat tidak menyebar normal

Nilai p-value 0.6833 cukup besar > \(\alpha\)(0.05) maka terima \(H_0\) berarti galat menyebar normal, sehingga asumsi normalitas galat masih terpenuhi.

3.2.3 Uji Homogenitas

> bp

    studentized Breusch-Pagan test

data:  reg
BP = 5.905, df = 2, p-value = 0.05221

\(H_0\) : tidak terjadi heteroskedastisitas

\(H_1\) : terjadi heteroskedastisitas

Nilai p-value 0.05221 > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dapat disimpulkan bahwa tidak terjadi heteroskedastisitas, tidak terbukti ada pelanggaran asumsi homogenitas ragam galat.

3.2.4 Uji Non Autokorelasi

> dw

    Durbin-Watson test

data:  reg
DW = 2.594, p-value = 0.8013
alternative hypothesis: true autocorrelation is greater than 0

\(H_0\) : tidak terjadi kasus autokorelasi

\(H_0\) : terjadi kasus autokorelasi

Nilai P-value 0.8013 > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dapat disimpulkan tidak terjadi kasus autokorelasi

3.3 Uji F Simultan

> anreg
       SK       JK db       KT
1 regresi  899.891  2 449.9455
2   galat  132.209  7  18.8870
3   total 1032.100  9 114.6778
> F_hit
[1] 23.82303
> pf
[1] 0.0007522929

\(H_0\) : \(\beta_1\)=\(\beta_2\)=0

\(H_1\) : minimal ada satu \(\beta_j\) \(\neq\) 0

Nilai p-value < \(\alpha\)(0.05) maka tolak \(H_0\), dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel prediktor (\(X_1\) dan \(X_2\)) dan variabel respon (Y) secara simultan.

3.4 Uji Parsial

> p
             [,1]
[1,] 0.3972467061
[2,] 0.0002644133
[3,] 0.8806860631

untuk

\(H_0\) : \(\beta_0\)=0

\(H_1\) : \(\beta_0\) \(\neq\) 0

Nilai p-value > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dengan taraf nyata 5% secara parsial intercept tidak berpengaruh terhadap variabel respon (Y)

untuk

\(H_0\) : \(\beta_1\)=0

\(H_1\) : \(\beta_1\) \(\neq\) 0

Nilai p-value < \(\alpha\)(0.05) maka tolak \(H_0\), sehingga dengan taraf nyata 5% secara parsial variabel prediktor (\(X_1\)) berpengaruh terhadap variabel respon (Y).

untuk

\(H_0\) : \(\beta_2\)=0

\(H_1\) : \(\beta_2\) \(\neq\) 0

Nilai p-value > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dengan taraf nyata 5% secara parsial variabel prediktor (\(X_2\)) tidak berpengaruh terhadap variabel respon (Y).

3.5 Koefisien Determinasi

> R2
[1] 0.8719029

Nilai koefisien determinasi sebesar 0.8719029 berarti kemampuan variabel prediktor \(X_1\) dan \(X_2\) mempengaruhi variabel respon (Y) sebesar 87.19029% dan sisanya 12.80971% dipengaruhi variabel lain diluar model.

3.6 Selang Kepercayaan

> selang_kepercayaan
            [,1]       [,2]
[1,] -37.4127949 83.5217039
[2,]   0.4790640  0.9954020
[3,]  -0.5557566  0.4871016
  • Nilai 0 termasuk dalam selang sehingga dengan taraf nyata 5% intercept tidak berpengaruh terhadap variabel respon(Y)
  • Nilai 0 tidak termasuk dalam selang sehingga dengan taraf nyata 5% variabel prediktor (\(X_1\)) berpengaruh terhadap variabel respon(Y)
  • Nilai 0 termasuk dalam selang sehingga dengan taraf nyata 5% variabel prediktor (\(X_2\)) tidak berpengaruh terhadap variabel respon(Y)

4 DAFTAR PUSTAKA

Draper, N. R. and H. Smith. 1998. Applied Regression Analysis, \(3^{rd}\) Edition. New York:John Wiley & Sons.

Efendi, A., Wardani, N. W. S., Fitriani, R., Sumarminingsih, E. 2020. Analisis Regresi Teori dan Aplikasi dengan R. Malang:UB Press

Kurniawan, R. dan Yuniarto, B. 2016. Analisis Regresi Dasar dan Penerapannya dengan R. Jakarta:Kencana

Santoso, A. B. 2018. Tutorial dan Solusi Pengolahan Data Regresi. Surabaya:Garuda Mas Sejahtera

Suyono. 2018. Analisis Regresi untuk Penelitian. Yogyakarta:Deepublish

Walpole, R. E. 1992. Pengantar Statistika. 3rd edn. Jakarta:PT Gramedia Pustaka Utama

Weisberg, S. 2005. Applied Linier Regression, \(3^{th}\) Edition. New Jersey:John Wiley & Sons.