1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi merupakan metode statistika yang digunakan untuk mengukur hubungan antara variabel pediktor (X) terhadap variabel respon (Y). Berdasarkan jumlah variabel prediktor, analisis regresi dibagi menjadi dua yaitu analisis regresi sederhana dan analisis regresi berganda. Analisis regresi sederhana merupakan analisis regresi yang hanya terdiri dari satu variabel prediktor dan satu variabel respon, sedangkan analisis regresi berganda memiliki dua atau lebih variabel prediktor.
Laporan praktikum ini dibuat untuk memenuhi tugas praktikum komputasi statistika kelas H, Statistika Universitas Brawijaya.
1.2 Statistika Deskriptif
Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole, 1992). Statistika deskriptif hanya memberikan informasi mengenai data dan tidak menarik kesimpulan mengenai apapun tentang gugus data induknya yang lebih besar. Statistika deskriptif biasanya disajikan dalam bentuk tabel, diagram, maupun grafik. Statistika deskriptif menunjukkan ukuran pemusatan dan ukuran penyebaran data. Ukuran pemusatan terdiri atas rata-rata, median, dan modes. Untuk ukuran penyebaran terdiri dari varian, simpangan baku, jangkauan, dan lain-lain.
1.3 Regresi Linier Ganda
Bentuk umum model regresi linier ganda dengan k variabel independen adalah \[ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 +...+ \beta_kX_k + \varepsilon \] dimana \(Y\) adalah variabel dependen, \(X_1\) , \(X_2\), …, \(X_k\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error) dan \(\beta_0\) , \(\beta_1\), …, \(\beta_k\) adalah parameter-parameter populasi yang nilainya tidak diketahui.
1.4 Uji Asumsi Klasik
Uji asumsi klasik adalah uji yang dilakukan sebelum pemrosesan data regresi (baik sederhana atau berganda) agar persamaan yang dihasilkan memenuhi kaidah Best Linear Unbiased estimator (BLUE). Jika uji asumsi klasik tidak dilakukan sebelum pemrosesan data, persamaan yang dihasilkan diragukan kemampuannya dalam menghasilkan prediksi yang akurat.
Dalam analisis regresi, ada beberapa asumsi yang harus dipenuhi agar informasi model regresi yang diperoleh sahih. Apabila salah satu asumsi model tidak terpenuhi maka tidak menjamin model yang diperoleh akan sahih. Tentu saja hal ini akan berakibat nilai duga model menjadi bias (tidak sesuai dengan kondisi real) sehingga interpretasi hasil penelitian tidak dapat dipertanggungjawabkan kebenarannya.
1.4.1 Multikolinieritas
Hubungan linier antar variabel bebas disebut dengan multikolinieritas. Hubungan tersebut tercipta karena adanya korelasi antar variabel bebas, dimana setiap ada perubahan pada suatu variabel bebas, akan mengakibatkan variabel bebas lainnya berubah.Oleh karena itu, dalam membuat regresi berganda, variabel bebas yang baik adalah variabel bebas yang mempunyai hubungan dengan variabel terikat, tetapi tidak mempunyai hubungan dengan variabel bebas lainnya.
Untuk mendeteksi Multikolinieritas yaitu menggunakan VIF (Variance Inflation Factor) dan TOL (Tolerance). Tolerance merupakan kebalikan dari VIF.
1.4.2 Normalitas
Dalam melakukan perhitungan statistik, tentu data yang kita miliki harus benar-benar mewakili populasi, sehingga hasil penelitian yang dibangun bisa digeneralisasikan pada populasi, dan sifat dari karakteristik populasi adalah berdsitribusi normal.
Untuk mendeteksi apakah data normal atau tidak, bisa menggunakan pengujian yaitu dengan Uji Chi-square, Uji Kolmogorov-Smirnov, Uji Liliefors dan Uji Shapiro Wilk.
1.4.3 Heteroskedastisitas
Homoskdeastisitas memiliki kebalikan yaitu Heteroskedastisitas. Heteroskedastisitas adalah adanya ketidaksamaan varian dari residual untuk semua pengamatan pada model regresi.
Biasanya heteroskedastisitas terjadi pada data cross section yaitu data yang diambil pada satu waktu, yang mewakili berbagai ukuran (kecil, sedang, dan besar). Oleh karena itu, cara pendeteksian adanya heterosdekastisitas yang paling mudah adalah melihat grafik atau gambar. Adapun cara lain untuk mendeteksi ada tidaknya heteroskedastitas yaitu dengan melakukan beberapa pengujian, diantaranya adalah Uji Korelasi Spearman, Uji Park, Uji White.
1.4.4 Autokorelasi
Autokorelasi atau korelasi serial merupakan suatu kondisi dimana komponen variabel random error berkorelasi berdasarkan urutan waktu (dalam data time series) atau urutan ruang (pada data cross section).
Untuk mendeteksi autokorelasi, dapat digunakan uji Durbin Watson.
1.5 Uji Simultan
Pada regresi linier berganda, uji hipotesis sangat berguna untuk mengukur kesesuaian model. Asumsi kenormalan residual tetap ada pada uji hipotesis ini. Uji signifikansi regresi diperlukan untuk mengetahui apakah terdapat hubungan linier antara respons y dengan tiap prediktor \(x_1\), \(x_2\), … \(x_k\). Hipotesis adalah
\[ H_0 : \beta_1 = \beta_2 = ... = \beta_k = 0 \] \[ H_1 : \beta_j \neq 0, paling tidak untuk 1j \]Menolak \(H_0\) : \(\beta_j\) = 0 berarti bahwa paling tidak ada satu prediktor \(x_1\), \(x_2\), … \(x_k\) yang berkonstribusi secara signifikan pada model. Prosedur uji ini merupakan bentuk generalisasi pada uji yang digunakan dalam regresi linier sederhana. Jumlah kuadrat total \(S_{yy}\) dipartisi menjadi jumlah kuadrat regresi dan jumlah kuadrat residual, misalnya
\(S_{yy}\) = \(SS_R\) + \(SS_E\)
dan jika \(H_0\) : \(\beta_j\) = 0 benar maka \(SS_R/\)\(\sigma^2\) ~ \(X_k^2\), dimana jumlah derajat bebas \(X^2\) sama dengan jumlah variabel prediktor dalam model. Dapat juga ditunjukkan bahwa \(SS_E/\)\(\sigma^2\)~\(X^2_{n-k-1}\) dan bahwa \(SS_E\) dan \(SS_R\) saling bebas. Prosedur uji untuk \(H_0\) : \(\beta_j\) = 0 didapat dengan menghitung
\[ F_0 = \frac{SS_R / k}{SS_E / n - k - 1} = \frac{MS_R}{MS_E} \]
dan menolak \(H_0\), jika \(F_0\) > \(F_{a,k,n-k-1}\). Apabila keputusannya tolak \(H_0\), maka dapat kita simpulkan bahwa sekurang-kurangnya ada satu variabel yang berpengaruh signifikan. Biasanya prosedur ini dirangkum dalam sebuah tabel ANOVA .
ANOVA untuk Signifikansi Regresi Linier Berganda
Sumber keragaman | SS | df | MS | \(F_0\) |
---|---|---|---|---|
Regresi | \(SS_R\) | \(k\) | \(MS_R\) | \(MS_R\)/\(MS_E\) |
Residual | \(SS_E\) | \(n-k-1\) | \(MS_E\) | |
Total | \(S_y\)\(_y\) | \(n-1\) |
Bila dalam pengujian hipotesis diperoleh hasil tolak \(H_0\), untuk mengetahui variabel independen mana saja yang berpengaruh signifikan dapat dicari dengan melakukan uji signifikansi secara parsial.
1.6 Uji Parsial
Uji signifikansi secara parsial digunakan untuk melihat pengaruh tiap tiap variabel independen secara sendiri sendiri terhadap variabel dependennya. Dalam regresi linear berganda hal ini perlu digunakan karena tiap tiap variabel independen memberi pengaruh yang berbeda dalam model. Hipotesis yang digunakan adalah
\[ H_0 : \beta_j = 0 \] \[ H_1 : \beta_j \neq 0 \] Jika \(H_0\) : \(\beta_j\) = 0 ditolak, maka hal ini menunjukkan bahwa prediktor \(X_j\) dapat dibuat dari model.
Statistik uji untuk hipotesis ini adalah \[ t_0 = \frac{\hat{\beta}j}{\sqrt{\hat{\sigma}^2 C{jj}}}= \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \]dimana \(C_j\)\(j\) adalah elemen diagonal \((X'X)^{-1}\) berdasarkan \(\hat{\beta}_j\) Hipotesis awal \(H_0\) : \(\beta_j\) = 0 ditolak jika |t| > t{/2,n-k-1} dengan catatan bahwa ini merupakan uji parsial atau marginal karena koefisien regresi \(\hat{\beta}_j\) tergantung pada semua variabel prediktor \(x_i\) (i \(\neq\) j) yang ada dalam model. Dengan demikian, uji ini merupakan uji terhadap konstribusi \(x_j\) diberikan prediktor-prediktor lain dalam model.
1.7 Koefisien Determinasi
Persamaan \[ R^2 = \frac{SS_R}{S_{yy}} = 1- \frac{SS_E}{S_{yy}} \]disebut dengan koefisien determinasi. Karena \(S_{yy}\) adalah ukuran keragaman y tanpa pengaruh variabel prediktor x dan \(SS_E\), adalah ukuran keragaman sisaan y setelah x ditentukan, \(R^2\) sering disebut proporsi keragaman yang diterangkan prediktor x. Karena \(0 \le SS_E \le S_{yy}\) maka \(0 \le R^2\le 1\). Nilai \(R^2\) dekat dengan 1 menunjukkan bahwa sebagian besar keragaman dalam y terjelaskan oleh model regresi.
1.8 Selang Kepercayaan
Untuk mendapatkan penaksir interval konfidensi koefisien regresi \(\hat{\beta}\), mesti diasumsikan bahwa error \(\varepsilon{i}\)~NID \((0, \sigma^2\)) sehingga amatan juga akan berdistribusi normal independen, \(y_i\)~NID \(( \beta_0 + \sum{j = 1}^{k}\beta_j x_{ij}, \sigma^2\)). Penaksir kuadrat terkecil \(\hat{\beta}\) merupakan kombinasi linier dari amatan-amatan, \(\hat{\beta}\)~\(N(\beta, \sigma^2(X'X)^{-1})\). Hal ini mengakibatkan distribusi marginal tiap koefisien regresi, \(\hat{\beta}j\)~\(N(\beta_j, \sigma^2, C{jj})\) dimana \(C_{jj}\) adalah elemen diagonal ke-j dari matriks \((X'X)^{-1}\). Sehingga setiap statistik
\[ \frac{\hat{\beta}j - \beta_j}{\sqrt{\hat{\sigma}^2C{jj}}} \] dimana \(j = 0,1,...,k\)bersitribusi \(t\) dengan derajat bebas \(n-p\), dimana \(\hat{\sigma}^2\) penaksir varian error. \(100(1-\alpha)\)% interval konfidensi untuk koefisien regresi \(\beta_j, j = 0,1,...,k\) adalah
\[ \hat{\beta}j -t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \le \beta_j \le \hat{\beta}j + t_{\alpha/2, n-p} \sqrt{\hat{\sigma}^2C_{jj}} \] dengan standar error koefisien regresi \[ \hat{\beta}j, se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 C{jj}} \]
1.9 Data
Data yang digunakan yaitu
> library(readxl)
> Data <- read_excel("D:/Data.xlsx", col_names = TRUE)
> Data
# A tibble: 10 x 3
X1 X2 Y<dbl> <dbl> <dbl>
1 60 110 65
2 70 120 70
3 75 115 75
4 80 130 75
5 80 110 80
6 90 120 80
7 95 120 85
8 95 125 95
9 100 110 90
10 100 120 98
X1 : Presentase kehadiran di kelas
X2 : Skor IQ mahasiswa
X3 : Nilai akhir mahasiswa
2 SOURCE CODE
> n <- dim(Data)[1]
> x <- matrix(c(rep(1,n),Data$X1,Data$X2), nrow = n)
> y <- Data$Y
> k <- dim(x)[2]
> b_hat <- solve(t(x)%*%x)%*%(t(x)%*%y)
> y_hat <- x%*%b_hat
> reg <- lm(Data$Y~Data$X1+Data$X2, data = Data)
Melakukan pendugaan koefisien secara manual, namun kita juga bisa melakukannya dengan menggunakan fungsi lm().
> #pendeteksian multikolinieritas
> library(car)
> VIF <- vif(reg)
> #uji normalitas
> sisa <- residuals(reg)
> library(tseries)
> jb <- jarque.bera.test(sisa)
> shapiro <- shapiro.test(sisa)
> #uji homogenitas
> library(lmtest)
> bp <- bptest(reg)
> #uji non autokorelasi
> dw <- dwtest(reg)
Melakukan uji asumsi klasik diantaranya yaitu pendeteksian multikolinieritas dengan VIF menggunakan library car, uji normalitas dengan jarque bera test dan shapiro test menggunakan library tseries, uji homogenitas dengan Breusch-Pagan test dan autokorelasi dengan Durbin Watson test menggunakan library lmtest.
> #uji F (Simultan)
> ybar <- rep(mean(y),n)
> JKreg <-t(y_hat-ybar)%*%(y_hat-ybar)
> JKg <- t(y-y_hat)%*%(y-y_hat)
> JKt <- t(y-ybar)%*%(y-ybar)
> JK <- c(JKreg, JKg, JKt)
> dbreg <- k-1
> dbtotal <- n-1
> dbgalat <- dbtotal-dbreg
> db <- c(dbreg, dbgalat, dbtotal)
> KT <- JK/db
> sk <- c("regresi", "galat", "total")
> anreg <- data.frame(sk, JK, db, KT)
> names(anreg) <- c("SK", "JK", "db", "KT")
> F_hit <- anreg$KT[1]/anreg$KT[2]
> pf <- pf(F_hit, anreg$db[1], anreg$db[2], lower.tail = FALSE)
Melakukan uji F (simultan) dengan membuat tabel ANOVA.
> #Uji t (parsial)
> #uji t
> var_cov <-anreg$KT[2]*solve(t(x)%*%x)
> sd<-rep(0,k)
> for(i in 1:k){sd[i]<-sqrt(var_cov[i,i])}
> t <- b_hat/sd
> p <- 2*pt(abs(t),anreg$db[2], lower.tail=FALSE)
Kemudian melakukan uji parsial
> #KOEFISIEN DETERMINASI
> R2 <- anreg$JK[1]/anreg$JK[3]
Menghitung koefisien determinasi yang diperoleh dari JKR/JKT
> #selang kepercayaan
> alfa <-0.05
> ttab <- qt(alfa/2, anreg$db[2],lower.tail = FALSE)
> lb_sk <- b_hat-ttab*sd
> ub_sk <- b_hat+ttab*sd
> selang_kepercayaan <- cbind(lb_sk,ub_sk)
Menghitung selang kepercayaan parameter.
3 HASIL DAN PEMBAHASAN
3.1 Regresi
> b_hat
1]
[,1,] 23.0544545
[2,] 0.7372330
[3,] -0.0343275
[> reg
:
Calllm(formula = Data$Y ~ Data$X1 + Data$X2, data = Data)
:
Coefficients$X1 Data$X2
(Intercept) Data23.05445 0.73723 -0.03433
\[ \hat{Y}=23.054 + 0.737 X_1 - 0.034 X_2 \]
- Apabila \(X_1\) dan \(X_2\) bernilai 0 maka nilai \(\hat{Y}\) yaitu sebesar 23.054
- Apabila terjadi kenaikan nilai \(X_1\) sebesar satu satuan dan nilai \(X_2\) dianggap bernilai 0 maka nilai \(\hat{Y}\) akan meningkat sebesar 0.737
- Apabila terjadi kenaikan nilai \(X_2\) sebesar satu satuan dan nilai \(X_1\) dianggap bernilai 0 maka nilai \(\hat{Y}\) akan menurun sebesar 0.034
3.2 Asumsi Klasik
3.2.1 Pendeteksian Multikolinieritas
> VIF
$X1 Data$X2
Data1.055571 1.055571
\(VIF_{X_1}\) = 1.055571
\(VIF_{X_2}\) = 1.055571
Keduanya dibawah 10 yang berarti tidak ada multikolinieritas.
3.2.2 Uji Normalitas
> jb
Jarque Bera Test
: sisa
data-squared = 0.58528, df = 2, p-value = 0.7463
X> shapiro
-Wilk normality test
Shapiro
: sisa
data= 0.95125, p-value = 0.6833 W
Uji Jarque Bera
\(H_0\) : galat menyebar normal
\(H_1\) : galat tidak menyebar normal
Nilai p-value 0.7463 cukup besar > \(\alpha\)(0.05) maka terima \(H_0\) berarti galat menyebar normal, sehingga asumsi normalitas galat masih terpenuhi.
Uji Shapiro Wilk
\(H_0\) : galat menyebar normal
\(H_1\) : galat tidak menyebar normal
Nilai p-value 0.6833 cukup besar > \(\alpha\)(0.05) maka terima \(H_0\) berarti galat menyebar normal, sehingga asumsi normalitas galat masih terpenuhi.
3.2.3 Uji Homogenitas
> bp
-Pagan test
studentized Breusch
: reg
data= 5.905, df = 2, p-value = 0.05221 BP
\(H_0\) : tidak terjadi heteroskedastisitas
\(H_1\) : terjadi heteroskedastisitas
Nilai p-value 0.05221 > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dapat disimpulkan bahwa tidak terjadi heteroskedastisitas, tidak terbukti ada pelanggaran asumsi homogenitas ragam galat.
3.2.4 Uji Non Autokorelasi
> dw
-Watson test
Durbin
: reg
data= 2.594, p-value = 0.8013
DW : true autocorrelation is greater than 0 alternative hypothesis
\(H_0\) : tidak terjadi kasus autokorelasi
\(H_0\) : terjadi kasus autokorelasi
Nilai P-value 0.8013 > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dapat disimpulkan tidak terjadi kasus autokorelasi
3.3 Uji F Simultan
> anreg
SK JK db KT1 regresi 899.891 2 449.9455
2 galat 132.209 7 18.8870
3 total 1032.100 9 114.6778
> F_hit
1] 23.82303
[> pf
1] 0.0007522929 [
\(H_0\) : \(\beta_1\)=\(\beta_2\)=0
\(H_1\) : minimal ada satu \(\beta_j\) \(\neq\) 0
Nilai p-value < \(\alpha\)(0.05) maka tolak \(H_0\), dapat disimpulkan bahwa terdapat pengaruh yang signifikan antara variabel prediktor (\(X_1\) dan \(X_2\)) dan variabel respon (Y) secara simultan.
3.4 Uji Parsial
> p
1]
[,1,] 0.3972467061
[2,] 0.0002644133
[3,] 0.8806860631 [
untuk
\(H_0\) : \(\beta_0\)=0
\(H_1\) : \(\beta_0\) \(\neq\) 0
Nilai p-value > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dengan taraf nyata 5% secara parsial intercept tidak berpengaruh terhadap variabel respon (Y)
untuk
\(H_0\) : \(\beta_1\)=0
\(H_1\) : \(\beta_1\) \(\neq\) 0
Nilai p-value < \(\alpha\)(0.05) maka tolak \(H_0\), sehingga dengan taraf nyata 5% secara parsial variabel prediktor (\(X_1\)) berpengaruh terhadap variabel respon (Y).
untuk
\(H_0\) : \(\beta_2\)=0
\(H_1\) : \(\beta_2\) \(\neq\) 0
Nilai p-value > \(\alpha\)(0.05) maka terima \(H_0\), sehingga dengan taraf nyata 5% secara parsial variabel prediktor (\(X_2\)) tidak berpengaruh terhadap variabel respon (Y).
3.5 Koefisien Determinasi
> R2
1] 0.8719029 [
Nilai koefisien determinasi sebesar 0.8719029 berarti kemampuan variabel prediktor \(X_1\) dan \(X_2\) mempengaruhi variabel respon (Y) sebesar 87.19029% dan sisanya 12.80971% dipengaruhi variabel lain diluar model.
3.6 Selang Kepercayaan
> selang_kepercayaan
1] [,2]
[,1,] -37.4127949 83.5217039
[2,] 0.4790640 0.9954020
[3,] -0.5557566 0.4871016 [
- Nilai 0 termasuk dalam selang sehingga dengan taraf nyata 5% intercept tidak berpengaruh terhadap variabel respon(Y)
- Nilai 0 tidak termasuk dalam selang sehingga dengan taraf nyata 5% variabel prediktor (\(X_1\)) berpengaruh terhadap variabel respon(Y)
- Nilai 0 termasuk dalam selang sehingga dengan taraf nyata 5% variabel prediktor (\(X_2\)) tidak berpengaruh terhadap variabel respon(Y)
4 DAFTAR PUSTAKA
Draper, N. R. and H. Smith. 1998. Applied Regression Analysis, \(3^{rd}\) Edition. New York:John Wiley & Sons.
Efendi, A., Wardani, N. W. S., Fitriani, R., Sumarminingsih, E. 2020. Analisis Regresi Teori dan Aplikasi dengan R. Malang:UB Press
Kurniawan, R. dan Yuniarto, B. 2016. Analisis Regresi Dasar dan Penerapannya dengan R. Jakarta:Kencana
Santoso, A. B. 2018. Tutorial dan Solusi Pengolahan Data Regresi. Surabaya:Garuda Mas Sejahtera
Suyono. 2018. Analisis Regresi untuk Penelitian. Yogyakarta:Deepublish
Walpole, R. E. 1992. Pengantar Statistika. 3rd edn. Jakarta:PT Gramedia Pustaka Utama
Weisberg, S. 2005. Applied Linier Regression, \(3^{th}\) Edition. New Jersey:John Wiley & Sons.