1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi berganda adalah salah satu jenis statistika inferensia yang cukup sering digunakan oleh banyak orang. Pemanfaatan regresi berganda tidak hanya dalam skala kecil, melainkan ke skala yang lebih besar seperti penerapan di Data Badan Pusat Statistik yang tentu sangat membantu banyak pihak.
Laporan praktikum ini dibuat untuk memenuhi Tugas Praktikum Komputasi Statistika kelas H, Statistika Universitas Brawijaya, 2021/2022.
1.2 Statistika Deskriptif
Statistika Deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole, 1992). Statistika deskriptif memberikan informasi hanya mengenai data yang dipunyai dan sama sekali tidak menarik inferensia atau kesimpulan apapun tentang gugus dan induk datanya yang lebih besar.
Statistika deskriptif biasanya disajikan dalam penyusunan tabel, diagram, grafik, dan besaran-besaran lain di majalah dan koran-koran. Ukuran pemusatan terdiri atas rata-rata, median, dan modus. Untuk ukuran penyebaran terdiri dari varian, simpangan baku, jangkauan, dan lain lain.
1.3 Statistika Inferensia
Inferensia statistik mencakup semua metode yang berhubungan dengan analisis sebagian data untuk kemudian sampai pada peramalan atau penarikan kesimpulan mengenai keseluruhan gugus data.
2 ISI
2.1 Regresi Linear Berganda
Bentuk umum model regresi linear ganda dengan k variabel independen adalah
\[ Y = \beta_0 + \beta_1 X_1~ + \beta_2 X_2 + .... + \beta_k~ X_k + \varepsilon \]dimana Y adalah variabel dependen, \(X_1\) , \(X_2\), …, \(X_k\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error) dan \(\beta_0\) , \(\beta_1\), …, \(\beta_k\) adalah parameter-parameter populasi yang nilainya tidak diketahui.
Secara umum, diantara varibel-variabel \(X_1\) , \(X_2\), …, \(X_k\) boleh merupakan fungsi dari variabel yang lain, tapi tidak boleh memuat parameter.
2.2 Uji Asumsi Klasik
Uji asumsi klasik adalah uji yang dilakukan sebelum pemrosesan data regresi (baik sederhana atau berganda) agar persamaan yang dihasilkan memenuhi kaidah best linear unbiased estimator. Jika uji asumsi klasik tidak dilakukan sebelum pemrosesan data, persamaan yang dihasilkan diragukan kemampuannya dalam menghasilkan prediksi yang akurat.
- Uji Linearitas
Uji linearitas merupakan uji yang digunakan untuk menyatakan apakah persamaan linear cocok digunakan pada data yang ada.
- Uji Normalitas
Dalam melakukan perhitungan statistik, tentu data yang kita miliki harus benar-benar mewakili populasi, sehingga hasil penelitian yang dibangun bisa digeneralisasikan pada populasi, dan sifat dari karakteristik populasi adalah berdsitribusi normal.
Untuk mendeteksi apakah data normal atau tidak, bisa menggunakan pengujian yaitu dengan Uji Chi-square, Uji Kolmogorov Smirnov, Uji Liliefors dan Uji Shapiro Wilk.
- Uji Heteroskedastisitas
Homoskdeastisitas memiliki kebalikan yaitu Heteroskedastisitas. Heteroskedastisitas adalah adanya ketidaksamaan varian dari residual untuk semua pengamatan pada model regresi.
Biasanya heteroskedastisitas terjadi pada data cross section yaitu data yang diambil pada satu waktu, yang mewakili berbagai ukuran (kecil, sedang, dan besar). Oleh karena itu, cara pendeteksian adanya heterosdekastisitas yang paling mudah adalah melihat grafik atau gambar. Adapun cara lain untuk mendeteksi ada tidaknya heteroskedastitas yaitu dengan melakukan beberapa pengujian, diantaranya adalah Uji Korelasi Spearman, Uji Park, Uji White.
- Uji Autokorelasi
Autokorelasi atau korelasi serial merupakan suatu kondisi dimana komponen variabel random error berkorelasi berdasarkan urutan waktu (dalam data time series) atau urutan ruang (pada data cross section).
Untuk mendeteksi autokorelasi, dapat digunakan uji Durbin Watson. Asumsi Uji Durbin Watson antara lain :
- Model regresi mengandung komponen intersep
- Variabel penjelas/independen bersifat non-stochastic/fixed dalam pengambilan sampel yang berulang
- Digunakan hanya untuk menguji model eror autoregresif orde pertama. Oleh karena itu, tidak dapat digunakan untuk menguji model autoregresif dengan orde tinggi.
- Komponen eror diasumsikan berdistribusi normal.
- Model regresi tidak mengandung variabel independen yang terlambat atau tertinggal (lag) varaibel dependen, yang mana akan terjadi ketika melakukan pendugaan sebuah model dinamis.
- Asumsi Multikolinieritas
Hubungan linear antar variabel bebas disebut multikolinieritas. Hubungan tersebut tercipta karena adanya korelasi antar variabel bebas, dimana setiap ada perubahan pada suatu variabel bebas akan mengakibatkan variabel bebas lainnya berubah. Oleh karena itu, dalam membuat regresi berganda variabel bebas yang baik adalah variabel bebas yang mempunyai hubungan dengan variabel terikat tetapi tidak mempunyai hubungan dengan variabel bebas lainnya.
Untuk mendeteksi keberadaan multikolinieritas adalah menggunakan VIF dan Tolerance.
2.3 Uji Hipotesis
- Uji Simultan
Pada regresi linier berganda, uji hipotesis sangat berguna untuk mengukur kesesuaian model. Asumsi kenormalan residual tetap ada pada uji hipotesis ini. Uji signifikansi regresi diperlukan untuk mengetahui apakah terdapat hubungan linier antara respons y dengan tiap prediktor (\(X_1\), \(X_2\), … \(X_k\)).
Hipotesis yang digunakan adalah
\[ H_0 : \beta_1 = \beta_2 = ... = \beta_k = 0 \] \[ H_1 : \beta_j \neq 0, paling tidak untuk 1j \]Menolak \(H_0\) : \(\beta_j\) = 0 berarti bahwa paling tidak ada satu prediktor (\(X_1\), \(X_2\), … \(X_k\)) yang berkonstribusi secara signifikan pada model. Prosedur uji ini merupakan bentuk generalisasi pada uji yang digunakan dalam regresi linier sederhana. Jumlah kuadrat total \(S_y\)\(_y\) dipartisi menjadi jumlah kuadrat regresi dan jumlah kuadrat residual, misalnya
\(S_y\)\(_y\) = \(SS_R\) + \(SS_E\)
dan jika \(H_0\) : \(\beta_j\) = 0 benar maka \(SS_R\) / \(\sigma^2\) ~ \(X_k^2\), dimana jumlah derajat bebas \(X^2\) sama dengan jumlah variabel prediktor dalam model. Prosedur uji untuk \(H_0\) : \(\beta_j\) = 0 didapat dengan menghitung
\[ F_0 = \frac{SS_R / k}{SS_E / n - k - 1} = \frac{MS_R}{MS_E} \]
dan menolak \(H_0\), jika \(F_0\) > \(F_a\),\(_k\),\(_{n-k-1}\). Biasanya prosedur ini dirangkum dalam sebuah tabel ANOVA .
ANOVA untuk Signifikansi Regresi Linier Berganda
| Sumber keragaman | SS | df | MS | \(F_0\) |
|---|---|---|---|---|
| Regresi | \(SS_R\) | k | \(MS_R\) | \(MS_R\)/\(MS_E\) |
| Residual | \(SS_E\) | n-k-1 | \(MS_E\) | |
| Total | \(S_y\)\(_y\) | n-1 |
Bila dalam pengujian hipotesis diperoleh hasil tolak \(H_0\), untuk mengetahui variabel independen mana saja yang berpengaruh signifikan dapat dicari dengan melakukan uji signifikansi secara parsial.
- Uji Parsial
Uji signifikansi secara parsial digunakan untuk melihat pengaruh tiap tiap variabel independen secara sendiri sendiri terhadap variabel dependennya. Dalam regresi linear berganda hal ini perlu digunakan karena tiap tiap variabel independen memberi pengaruh yang berbeda dalam model.
Hipotesis yang digunakan adalah :
\[ H_0 : \beta_j = 0 \] \[ H_1 : \beta_j \neq 0 \]Jika \(H_0\) : \(\beta_j\) = 0 ditolak, maka hal ini menunjukkan bahwa prediktor \(X_j\) dapat dibuat dari model.
Statistik uji untuk hipotesis ini adalah
\[ t_0 = \frac{\hat{\beta}_j}{\sqrt{\hat{\sigma}^2 C_{jj}}}= \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \]
dimana \(C_j\)\(_j\) adalah elemen diagonal \((X'X)^{-1}\) berdasarkan \(\hat{\beta}_j\) Hipotesis awal \(H_0\) : \(\beta_j\) = 0 ditolak jika |t| > \(t_{a/2,n-k-1}\) dengan catatan bahwa ini merupakan uji parsial atau marginal karena koefisien regresi \(\hat{\beta}_j\) tergantung pada semua variabel prediktor \(X_i\) (i \(\neq\) j) yang ada dalam model. Dengan demikian, uji ini merupakan uji terhadap konstribusi \(X_j\) diberikan prediktor-prediktor lain dalam model.
2.4 Koefisien Determinasi
Persamaan
\[ R^2 = \frac{SS_R}{S_{yy}} = 1- \frac{SS_E}{S_{yy}} \]disebut dengan koefisien determinasi. Karena \(S_{yy}\) adalah ukuran keragaman y tanpa pengaruh variabel prediktor x dan \(SS_E\), adalah ukuran keragaman sisaan y setelah x ditentukan, \(R^2\) sering disebut proporsi keragaman yang diterangkan prediktor x. Karena \(0 \le SS_E \le S_{yy}\) maka \(0 \le R^2\le 1\). Nilai \(R^2\) dekat dengan 1 menunjukkan bahwa sebagian besar keragaman dalam y terjelaskan oleh model regresi.
2.5 Selang Kepercayaan
Untuk mendapatkan penaksir interval konfidensi koefisien regresi \(\hat{\beta}\), mesti diasumsikan bahwa error \(\varepsilon{_i}\)~NID \((0, \sigma^2\)) sehingga amatan juga akan berdistribusi normal independen, \(y_i\)~NID \(( \beta_0 + \sum_{j = 1}^{k}\beta_j x_{ij}, \sigma^2\)). Penaksir kuadrat terkecil \(\hat{\beta}\) merupakan kombinasi linier dari amatan-amatan, \(\hat{\beta}\)~\(N(\beta, \sigma^2(X'X)^{-1})\).
Hal ini mengakibatkan distribusi marginal tiap koefisien regresi, \(\hat{\beta}_j\)~\(N(\beta_j, \sigma^2, C_{jj})\) dimana \(C_{jj}\) adalah elemen diagonal ke-j dari matriks \((X'X)^{-1}\). Sehingga tiap statistik
\(\frac{\hat{\beta}_j - \beta_j}{\sqrt{\hat{\sigma}^2C_{jj}}}\)
dimana \(j = 0,1,...,k\) bersitribusi \(t\) dengan derajat bebas \(n-p\), dimana \(\hat{\sigma}^2\) penaksir varian error. \(100(1-\alpha)\)% interval konfidensi untuk koefisien regresi \(\beta_j, j = 0,1,...,k\) adalah
\[ \hat{\beta}_j - t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \le \beta_j \le \hat{\beta}_j + t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \] dengan standar error koefisien regresi \[ \hat{\beta}_j, se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 C_{jj}} \] # Library
> install.packages("knitr")
> install.packages("rmarkdown")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("prettydoc")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("equatiomatic")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("readxl")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("rlang")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("tseries")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("lmtest")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror3 DATA
Data yang digunakan pada laporan ini, adalah data pengaruh Tingkat IQ dan Motivasi terhadap Hasil belajar mahasiswa dengan syntax seperti di bawah:
> library(readxl)
> Data <- read_excel("D:/DataSimulasi.xlsx", col_names = TRUE)
> Data
# A tibble: 15 x 3
`Tingkat IQ (X1)` `Motivasi (X2)` `Hasil Belajar Mahasiswa (Y)`
<dbl> <dbl> <dbl>
1 90 70 59
2 97 77 60
3 97 77 62
4 97 77 65
5 106 76 69
6 110 68 65
7 115 78 69
8 115 78 70
9 118 79 74
10 122 80 70
11 127 79 75
12 127 79 76
13 127 79 78
14 135 85 81
15 140 88 854 SOURCE CODE DAN PEMBAHASAN
- Melakukan Analisis Regresi Untuk melakukan analisis regresi untuk Y sebagai fungsi dari \(X_1\) dan \(X_2\) dapat digunakan perintah
lm()seperti di bawah:
> anreg <- lm(Data$`Hasil Belajar Mahasiswa (Y)`~Data$`Motivasi (X2)` + Data$`Tingkat IQ (X1)`, data=Data)
> anreg
Call:
lm(formula = Data$`Hasil Belajar Mahasiswa (Y)` ~ Data$`Motivasi (X2)` +
Data$`Tingkat IQ (X1)`, data = Data)
Coefficients:
(Intercept) Data$`Motivasi (X2)` Data$`Tingkat IQ (X1)`
0.1901 0.2897 0.4156 Dalam hal ini Y adalah variabel respons yakni Hasil belajar Mahasiswa dan \(X_1\) adalah Tingkat IQ serta \(X_2\) adalah Motivasi.
Berdasarkan data diatas dapat disimpulkan bahwa
\(\beta_0 = 0.1901\)
\(\beta_1 = 0.4156\)
\(\beta_2 = 0.2897\)
- Melakukan Summary dari hasil analisis Untuk menampilkan summary dari hasil analisis sebelumnya dapat digunakan perintah
summary()yakni seperti syntax di bawah
> summary(anreg)
Call:
lm(formula = Data$`Hasil Belajar Mahasiswa (Y)` ~ Data$`Motivasi (X2)` +
Data$`Tingkat IQ (X1)`, data = Data)
Residuals:
Min 1Q Median 3Q Max
-4.0777 -0.8418 0.0703 1.4987 2.7315
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.19005 9.71441 0.020 0.985
Data$`Motivasi (X2)` 0.28975 0.17231 1.682 0.118
Data$`Tingkat IQ (X1)` 0.41564 0.05501 7.555 6.72e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.083 on 12 degrees of freedom
Multiple R-squared: 0.9365, Adjusted R-squared: 0.9259
F-statistic: 88.47 on 2 and 12 DF, p-value: 6.562e-08Perintah ini akan menghasilkan nilai min,q1, med, q3, dan max pada residual data, tabel Anova, nilai F statistik sampai nilai R-squared (\(R^2\))
Pendugaan Parameter Berdasarkan hasil summary diatas, model regresi dari data adalah sebagai berikut:
\[ \hat{Y} = 0.19005 + 0.41564 X_1 + 0.28975X_2 \]
Uji Simultan Nilai p-value (6.562 x \(10^{-8}\)) < \(\alpha\)(0.05) maka \(H_0\) ditolak. Sehingga dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel prediktor terhadap variabel respons secara simultan.
Uji Parsial
Untuk \(X_1\)
Nilai p-value (6.72 x \(10^{-6}\)) < \(\alpha\)(0.05) maka \(H_0\) ditolak. Dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel \(X_1\) terhadap Y secara parsial
Untuk \(X_2\)
Nilai p-value (0.118) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terdapat pengaruh yang signifikan antara variabel \(X_2\) terhadap Y secara parsial
- Pendeteksian Multikolinieritas
> library(car)
> vif (anreg)
Data$`Motivasi (X2)` Data$`Tingkat IQ (X1)`
2.244652 2.244652 Karena nilai VIF pada \(X_1\) dan \(X_2\) berada di bawah 10, maka tidak terjadi multikolinieritas. Artinya, asumsi multikolinieritas terpenuhi.
- Normalitas Galat
> library(tseries)
> sisa <- residuals (anreg)
> sisa
1 2 3 4 5 6
1.12016422 -2.81754088 -0.81754088 2.18245912 2.73147836 -0.61307073
7 8 9 10 11 12
-1.58875156 -0.58875156 1.87458855 -4.07770805 -0.86614193 0.13385807
13 14 15
2.13385807 0.07026598 1.12283321
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.95467, p-value = 0.6008\(H_0\) : Galat menyebar normal
\(H_1\) : Galat tidak menyebar normal Berdasarkan uji shapiro wilk diatas, diperoleh nilai p-value (0.6008) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa galat menyebar secara normal, artinya uji asumsi normalitas terpenuhi.
- Homogenitas Ragam Galat
> library("lmtest")
> bptest(anreg)
studentized Breusch-Pagan test
data: anreg
BP = 0.76826, df = 2, p-value = 0.681\(H_0\) : Tidak terjadi heteroskdeastisitas
\(H_1\) : Terjadi heteroskedastisitas Berdasarkan uji bp-test, dapat disimpulkan bahwa nilai p-value (0.681) > \(\alpha\)(0.05) maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terjadi heteroskedastisitas artinya asumsi homogenitas ragam galat terpenuhi.
- Non Autokorelasi Galat
> dwtest(anreg)
Durbin-Watson test
data: anreg
DW = 2, p-value = 0.3355
alternative hypothesis: true autocorrelation is greater than 0\(H_0\) : tidak terjadi autokorelasi
\(H_1\) : terjadi autokorelasi
Berdasarkan uji Durbin Watson, nilai p-value(0.3355) > \(\alpha\)(0.05), maka \(H_0\) diterima. Dapat disimpulkan bahwa tidak terjadi kasus autokorelasi pada galat.
- Koefisien Determinasi Koefisien determinasi sebesar 0.9259 artinya variabel prediktor (\(X_1\) dan \(X_2\)) mempengaruhi variabel respons (Y) sebesar 92.59%, sedangkan sisanya dipengaruhi variabel lain di luar model.
5 DAFTAR PUSTAKA
Draper, N. R. and H. Smith. 1998. Applied Regression Analysis, \(3^{rd}\) Edition. New York : John Wiley & Sons.
Efendi, A., Wardani, N. W. S., Fitriani, R., Sumarminingsih, E. 2020. Analisis Regresi Teori dan Aplikasi dengan R. Malang: UB Press
Kurniawan, R. dan Yuniarto, B. 2016. Analisis Regresi Dasar dan Penerapannya dengan R. Jakarta: Kencana
Santoso, A. B. 2018. Tutorial dan Solusi Pengolahan Data Regresi. Surabaya : Garuda Mas Sejahtera
Suyono. 2018. Analisis Regresi untuk Penelitian. Yogyakarta : Deepublish
Walpole, R. E. .1992. Pengantar Statistika. 3rd edn. Jakarta: PT Gramedia Pustaka Utama
Weisberg, S. 2005. Applied Linier Regression, \(3^{th}\) Edition. New Jersey : John Wiley & Sons.