Penerapan Regresi Berganda dengan R Studio

Raissa Loretta Purba

22/5/2022

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi berganda adalah salah satu jenis statistika inferensia yang cukup sering digunakan oleh banyak orang. Pemanfaatan regresi berganda tidak hanya dalam skala kecil, melainkan ke skala yang lebih besar seperti penerapan di Data Badan Pusat Statistik yang tentu sangat membantu banyak pihak.

Laporan praktikum ini dibuat untuk memenuhi Tugas Praktikum Komputasi Statistika kelas H, Statistika Universitas Brawijaya, 2021/2022.

1.2 Statistika Deskriptif

Statistika Deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole, 1992). Statistika deskriptif memberikan informasi hanya mengenai data yang dipunyai dan sama sekali tidak menarik inferensia atau kesimpulan apapun tentang gugus dan induk datanya yang lebih besar.

Statistika deskriptif biasanya disajikan dalam penyusunan tabel, diagram, grafik, dan besaran-besaran lain di majalah dan koran-koran. Ukuran pemusatan terdiri atas rata-rata, median, dan modus. Untuk ukuran penyebaran terdiri dari varian, simpangan baku, jangkauan, dan lain lain.

1.3 Statistika Inferensia

Inferensia statistik mencakup semua metode yang berhubungan dengan analisis sebagian data untuk kemudian sampai pada peramalan atau penarikan kesimpulan mengenai keseluruhan gugus data.

2 ISI

2.1 Regresi Linear Berganda

Bentuk umum model regresi linear ganda dengan k variabel independen adalah

\[ Y = \beta_0 + \beta_1 X_1~ + \beta_2 X_2 + .... + \beta_k~ X_k + \varepsilon \]

dimana Y adalah variabel dependen, \(X_1\) , \(X_2\), …, \(X_k\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error) dan \(\beta_0\) , \(\beta_1\), …, \(\beta_k\) adalah parameter-parameter populasi yang nilainya tidak diketahui.

Secara umum, diantara varibel-variabel \(X_1\) , \(X_2\), …, \(X_k\) boleh merupakan fungsi dari variabel yang lain, tapi tidak boleh memuat parameter.

2.2 Uji Asumsi Klasik

Uji asumsi klasik adalah uji yang dilakukan sebelum pemrosesan data regresi (baik sederhana atau berganda) agar persamaan yang dihasilkan memenuhi kaidah best linear unbiased estimator. Jika uji asumsi klasik tidak dilakukan sebelum pemrosesan data, persamaan yang dihasilkan diragukan kemampuannya dalam menghasilkan prediksi yang akurat.

  1. Uji Linearitas

Uji linearitas merupakan uji yang digunakan untuk menyatakan apakah persamaan linear cocok digunakan pada data yang ada.

  1. Uji Normalitas

Dalam melakukan perhitungan statistik, tentu data yang kita miliki harus benar-benar mewakili populasi, sehingga hasil penelitian yang dibangun bisa digeneralisasikan pada populasi, dan sifat dari karakteristik populasi adalah berdsitribusi normal.

Untuk mendeteksi apakah data normal atau tidak, bisa menggunakan pengujian yaitu dengan Uji Chi-square, Uji Kolmogorov Smirnov, Uji Liliefors dan Uji Shapiro Wilk.

  1. Uji Heteroskedastisitas

    Homoskdeastisitas memiliki kebalikan yaitu Heteroskedastisitas. Heteroskedastisitas adalah adanya ketidaksamaan varian dari residual untuk semua pengamatan pada model regresi.

Biasanya heteroskedastisitas terjadi pada data cross section yaitu data yang diambil pada satu waktu, yang mewakili berbagai ukuran (kecil, sedang, dan besar). Oleh karena itu, cara pendeteksian adanya heterosdekastisitas yang paling mudah adalah melihat grafik atau gambar. Adapun cara lain untuk mendeteksi ada tidaknya heteroskedastitas yaitu dengan melakukan beberapa pengujian, diantaranya adalah Uji Korelasi Spearman, Uji Park, Uji White.

  1. Uji Autokorelasi

    Autokorelasi atau korelasi serial merupakan suatu kondisi dimana komponen variabel random error berkorelasi berdasarkan urutan waktu (dalam data time series) atau urutan ruang (pada data cross section).

Untuk mendeteksi autokorelasi, dapat digunakan uji Durbin Watson. Asumsi Uji Durbin Watson antara lain :

  • Model regresi mengandung komponen intersep
  • Variabel penjelas/independen bersifat non-stochastic/fixed dalam pengambilan sampel yang berulang
  • Digunakan hanya untuk menguji model eror autoregresif orde pertama. Oleh karena itu, tidak dapat digunakan untuk menguji model autoregresif dengan orde tinggi.
  • Komponen eror diasumsikan berdistribusi normal.
  • Model regresi tidak mengandung variabel independen yang terlambat atau tertinggal (lag) varaibel dependen, yang mana akan terjadi ketika melakukan pendugaan sebuah model dinamis.
  1. Asumsi Multikolinieritas

    Hubungan linear antar variabel bebas disebut multikolinieritas. Hubungan tersebut tercipta karena adanya korelasi antar variabel bebas, dimana setiap ada perubahan pada suatu variabel bebas akan mengakibatkan variabel bebas lainnya berubah. Oleh karena itu, dalam membuat regresi berganda variabel bebas yang baik adalah variabel bebas yang mempunyai hubungan dengan variabel terikat tetapi tidak mempunyai hubungan dengan variabel bebas lainnya.

Untuk mendeteksi keberadaan multikolinieritas adalah menggunakan VIF dan Tolerance.

2.3 Uji Hipotesis

  • Uji Simultan

    Pada regresi linier berganda, uji hipotesis sangat berguna untuk mengukur kesesuaian model. Asumsi kenormalan residual tetap ada pada uji hipotesis ini. Uji signifikansi regresi diperlukan untuk mengetahui apakah terdapat hubungan linier antara respons y dengan tiap prediktor (\(X_1\), \(X_2\), … \(X_k\)).

Hipotesis yang digunakan adalah

\[ H_0 : \beta_1 = \beta_2 = ... = \beta_k = 0 \] \[ H_1 : \beta_j \neq 0, paling tidak untuk 1j \]

Menolak \(H_0\) : \(\beta_j\) = 0 berarti bahwa paling tidak ada satu prediktor (\(X_1\), \(X_2\), … \(X_k\)) yang berkonstribusi secara signifikan pada model. Prosedur uji ini merupakan bentuk generalisasi pada uji yang digunakan dalam regresi linier sederhana. Jumlah kuadrat total \(S_y\)\(_y\) dipartisi menjadi jumlah kuadrat regresi dan jumlah kuadrat residual, misalnya

\(S_y\)\(_y\) = \(SS_R\) + \(SS_E\)

dan jika \(H_0\) : \(\beta_j\) = 0 benar maka \(SS_R\) / \(\sigma^2\) ~ \(X_k^2\), dimana jumlah derajat bebas \(X^2\) sama dengan jumlah variabel prediktor dalam model. Prosedur uji untuk \(H_0\) : \(\beta_j\) = 0 didapat dengan menghitung

\[ F_0 = \frac{SS_R / k}{SS_E / n - k - 1} = \frac{MS_R}{MS_E} \]

dan menolak \(H_0\), jika \(F_0\) > \(F_a\),\(_k\),\(_{n-k-1}\). Biasanya prosedur ini dirangkum dalam sebuah tabel ANOVA .

ANOVA untuk Signifikansi Regresi Linier Berganda

Sumber keragaman SS df MS \(F_0\)
Regresi \(SS_R\) k \(MS_R\) \(MS_R\)/\(MS_E\)
Residual \(SS_E\) n-k-1 \(MS_E\)
Total \(S_y\)\(_y\) n-1

Bila dalam pengujian hipotesis diperoleh hasil tolak \(H_0\), untuk mengetahui variabel independen mana saja yang berpengaruh signifikan dapat dicari dengan melakukan uji signifikansi secara parsial.

  • Uji Parsial

    Uji signifikansi secara parsial digunakan untuk melihat pengaruh tiap tiap variabel independen secara sendiri sendiri terhadap variabel dependennya. Dalam regresi linear berganda hal ini perlu digunakan karena tiap tiap variabel independen memberi pengaruh yang berbeda dalam model.

Hipotesis yang digunakan adalah :

\[ H_0 : \beta_j = 0 \] \[ H_1 : \beta_j \neq 0 \]

Jika \(H_0\) : \(\beta_j\) = 0 ditolak, maka hal ini menunjukkan bahwa prediktor \(X_j\) dapat dibuat dari model.

Statistik uji untuk hipotesis ini adalah

\[ t_0 = \frac{\hat{\beta}_j}{\sqrt{\hat{\sigma}^2 C_{jj}}}= \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \]

dimana \(C_j\)\(_j\) adalah elemen diagonal \((X'X)^{-1}\) berdasarkan \(\hat{\beta}_j\) Hipotesis awal \(H_0\) : \(\beta_j\) = 0 ditolak jika |t| > \(t_{a/2,n-k-1}\) dengan catatan bahwa ini merupakan uji parsial atau marginal karena koefisien regresi \(\hat{\beta}_j\) tergantung pada semua variabel prediktor \(X_i\) (i \(\neq\) j) yang ada dalam model. Dengan demikian, uji ini merupakan uji terhadap konstribusi \(X_j\) diberikan prediktor-prediktor lain dalam model.

2.4 Koefisien Determinasi

Persamaan

\[ R^2 = \frac{SS_R}{S_{yy}} = 1- \frac{SS_E}{S_{yy}} \]

disebut dengan koefisien determinasi. Karena \(S_{yy}\) adalah ukuran keragaman y tanpa pengaruh variabel prediktor x dan \(SS_E\), adalah ukuran keragaman sisaan y setelah x ditentukan, \(R^2\) sering disebut proporsi keragaman yang diterangkan prediktor x. Karena \(0 \le SS_E \le S_{yy}\) maka \(0 \le R^2\le 1\). Nilai \(R^2\) dekat dengan 1 menunjukkan bahwa sebagian besar keragaman dalam y terjelaskan oleh model regresi.

2.5 Selang Kepercayaan

Untuk mendapatkan penaksir interval konfidensi koefisien regresi \(\hat{\beta}\), mesti diasumsikan bahwa error \(\varepsilon{_i}\)~NID \((0, \sigma^2\)) sehingga amatan juga akan berdistribusi normal independen, \(y_i\)~NID \(( \beta_0 + \sum_{j = 1}^{k}\beta_j x_{ij}, \sigma^2\)). Penaksir kuadrat terkecil \(\hat{\beta}\) merupakan kombinasi linier dari amatan-amatan, \(\hat{\beta}\)~\(N(\beta, \sigma^2(X'X)^{-1})\).
Hal ini mengakibatkan distribusi marginal tiap koefisien regresi, \(\hat{\beta}_j\)~\(N(\beta_j, \sigma^2, C_{jj})\) dimana \(C_{jj}\) adalah elemen diagonal ke-j dari matriks \((X'X)^{-1}\). Sehingga tiap statistik

\(\frac{\hat{\beta}_j - \beta_j}{\sqrt{\hat{\sigma}^2C_{jj}}}\)
dimana \(j = 0,1,...,k\) bersitribusi \(t\) dengan derajat bebas \(n-p\), dimana \(\hat{\sigma}^2\) penaksir varian error. \(100(1-\alpha)\)% interval konfidensi untuk koefisien regresi \(\beta_j, j = 0,1,...,k\) adalah

\[ \hat{\beta}_j - t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \le \beta_j \le \hat{\beta}_j + t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \] dengan standar error koefisien regresi \[ \hat{\beta}_j, se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 C_{jj}} \] # Library

> install.packages("knitr")
> install.packages("rmarkdown")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("prettydoc")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("equatiomatic")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("readxl")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("rlang")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("tseries")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("lmtest")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

3 DATA

Data yang digunakan pada laporan ini, adalah data pengaruh Tingkat IQ dan Motivasi terhadap Hasil belajar mahasiswa dengan syntax seperti di bawah:

> library(readxl)
> Data <- read_excel("D:/DataSimulasi.xlsx", col_names = TRUE)
> Data
# A tibble: 15 x 3
   `Tingkat IQ (X1)` `Motivasi (X2)` `Hasil Belajar Mahasiswa (Y)`
               <dbl>           <dbl>                         <dbl>
 1                90              70                            59
 2                97              77                            60
 3                97              77                            62
 4                97              77                            65
 5               106              76                            69
 6               110              68                            65
 7               115              78                            69
 8               115              78                            70
 9               118              79                            74
10               122              80                            70
11               127              79                            75
12               127              79                            76
13               127              79                            78
14               135              85                            81
15               140              88                            85

4 SOURCE CODE DAN PEMBAHASAN

  • Melakukan Analisis Regresi Untuk melakukan analisis regresi untuk Y sebagai fungsi dari \(X_1\) dan \(X_2\) dapat digunakan perintah lm() seperti di bawah:
> anreg <- lm(Data$`Hasil Belajar Mahasiswa (Y)`~Data$`Motivasi (X2)` + Data$`Tingkat IQ (X1)`, data=Data)
> anreg

Call:
lm(formula = Data$`Hasil Belajar Mahasiswa (Y)` ~ Data$`Motivasi (X2)` + 
    Data$`Tingkat IQ (X1)`, data = Data)

Coefficients:
           (Intercept)    Data$`Motivasi (X2)`  Data$`Tingkat IQ (X1)`  
                0.1901                  0.2897                  0.4156  

Dalam hal ini Y adalah variabel respons yakni Hasil belajar Mahasiswa dan \(X_1\) adalah Tingkat IQ serta \(X_2\) adalah Motivasi.

Berdasarkan data diatas dapat disimpulkan bahwa
\(\beta_0 = 0.1901\)
\(\beta_1 = 0.4156\)
\(\beta_2 = 0.2897\)

  • Melakukan Summary dari hasil analisis Untuk menampilkan summary dari hasil analisis sebelumnya dapat digunakan perintah summary() yakni seperti syntax di bawah
> summary(anreg)

Call:
lm(formula = Data$`Hasil Belajar Mahasiswa (Y)` ~ Data$`Motivasi (X2)` + 
    Data$`Tingkat IQ (X1)`, data = Data)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.0777 -0.8418  0.0703  1.4987  2.7315 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             0.19005    9.71441   0.020    0.985    
Data$`Motivasi (X2)`    0.28975    0.17231   1.682    0.118    
Data$`Tingkat IQ (X1)`  0.41564    0.05501   7.555 6.72e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.083 on 12 degrees of freedom
Multiple R-squared:  0.9365,    Adjusted R-squared:  0.9259 
F-statistic: 88.47 on 2 and 12 DF,  p-value: 6.562e-08

Perintah ini akan menghasilkan nilai min,q1, med, q3, dan max pada residual data, tabel Anova, nilai F statistik sampai nilai R-squared (\(R^2\))

Pendugaan Parameter Berdasarkan hasil summary diatas, model regresi dari data adalah sebagai berikut:

\[ \hat{Y} = 0.19005 + 0.41564 X_1 + 0.28975X_2 \]

Uji Simultan Nilai p-value (6.562 x \(10^{-8}\)) < \(\alpha\)(0.05) maka \(H_0\) ditolak. Sehingga dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel prediktor terhadap variabel respons secara simultan.

Uji Parsial

Untuk \(X_1\)
Nilai p-value (6.72 x \(10^{-6}\)) < \(\alpha\)(0.05) maka \(H_0\) ditolak. Dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel \(X_1\) terhadap Y secara parsial

Untuk \(X_2\)
Nilai p-value (0.118) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terdapat pengaruh yang signifikan antara variabel \(X_2\) terhadap Y secara parsial

  • Pendeteksian Multikolinieritas
> library(car)
> vif (anreg)
  Data$`Motivasi (X2)` Data$`Tingkat IQ (X1)` 
              2.244652               2.244652 

Karena nilai VIF pada \(X_1\) dan \(X_2\) berada di bawah 10, maka tidak terjadi multikolinieritas. Artinya, asumsi multikolinieritas terpenuhi.

  • Normalitas Galat
> library(tseries)
> sisa <- residuals (anreg)
> sisa
          1           2           3           4           5           6 
 1.12016422 -2.81754088 -0.81754088  2.18245912  2.73147836 -0.61307073 
          7           8           9          10          11          12 
-1.58875156 -0.58875156  1.87458855 -4.07770805 -0.86614193  0.13385807 
         13          14          15 
 2.13385807  0.07026598  1.12283321 
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.95467, p-value = 0.6008

\(H_0\) : Galat menyebar normal
\(H_1\) : Galat tidak menyebar normal Berdasarkan uji shapiro wilk diatas, diperoleh nilai p-value (0.6008) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa galat menyebar secara normal, artinya uji asumsi normalitas terpenuhi.

  • Homogenitas Ragam Galat
> library("lmtest")
> bptest(anreg)

    studentized Breusch-Pagan test

data:  anreg
BP = 0.76826, df = 2, p-value = 0.681

\(H_0\) : Tidak terjadi heteroskdeastisitas
\(H_1\) : Terjadi heteroskedastisitas Berdasarkan uji bp-test, dapat disimpulkan bahwa nilai p-value (0.681) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terjadi heteroskedastisitas artinya asumsi homogenitas ragam galat terpenuhi.

  • Non Autokorelasi Galat
> dwtest(anreg)

    Durbin-Watson test

data:  anreg
DW = 2, p-value = 0.3355
alternative hypothesis: true autocorrelation is greater than 0

\(H_0\) : tidak terjadi autokorelasi
\(H_1\) : terjadi autokorelasi
Berdasarkan uji Durbin Watson, nilai p-value(0.3355) > \(\alpha\)(0.05), maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terjadi kasus autokorelasi pada galat.

  • Koefisien Determinasi Koefisien determinasi sebesar 0.9259 artinya variabel prediktor (\(X_1\) dan \(X_2\)) mempengaruhi variabel respons (Y) sebesar 92.59%, sedangkan sisanya dipengaruhi variabel lain di luar model.

5 DAFTAR PUSTAKA

Draper, N. R. and H. Smith. 1998. Applied Regression Analysis, \(3^{rd}\) Edition. New York : John Wiley & Sons.
Efendi, A., Wardani, N. W. S., Fitriani, R., Sumarminingsih, E. 2020. Analisis Regresi Teori dan Aplikasi dengan R. Malang: UB Press
Kurniawan, R. dan Yuniarto, B. 2016. Analisis Regresi Dasar dan Penerapannya dengan R. Jakarta: Kencana
Santoso, A. B. 2018. Tutorial dan Solusi Pengolahan Data Regresi. Surabaya : Garuda Mas Sejahtera
Suyono. 2018. Analisis Regresi untuk Penelitian. Yogyakarta : Deepublish
Walpole, R. E. .1992. Pengantar Statistika. 3rd edn. Jakarta: PT Gramedia Pustaka Utama
Weisberg, S. 2005. Applied Linier Regression, \(3^{th}\) Edition. New Jersey : John Wiley & Sons.