Analisis Regresi dan Asumsinya pada Rstudio

1 PENDAHULUAN

Latar Belakang

Analisis regresi merupakan metode statistik yang melibatkan pemahaman dasar tentang statistika, metode pengumpulan data, dan hubungan antara variabel dependen dan independen. Analisis regresi adalah teknik statistik yang digunakan untuk memahami dan memodelkan hubungan antara satu atau lebih variabel independen (juga dikenal sebagai variabel prediktor) dengan satu variabel dependen (juga dikenal sebagai variabel respons).

2 TINJAUAN PUSTAKA

2.1 Asumsi-Asumsi Dalam Analisis Regresi

1. Asumsi Normalitas

Asumsi normalitas menyatakan bahwa kesalahan (error) dalam model regresi mengikuti distribusi normal. Dalam regresi linier, normalitas penting karena memungkinkan kita untuk menggunakan metode inferensial yang didasarkan pada asumsi normalitas, seperti uji hipotesis dan interval kepercayaan. Jika asumsi ini tidak terpenuhi, dapat mempengaruhi validitas statistik inferensial yang digunakan dalam analisis regresi.

2. Asumsi Homoskedastisitas

Asumsi homoskedastisitas menyatakan bahwa varians kesalahan (error) adalah konstan di semua tingkat nilai variabel independen. Dalam kata lain, tidak ada pola sistematis dalam variasi kesalahan seiring perubahan nilai variabel independen. Jika asumsi homoskedastisitas tidak terpenuhi (yang disebut heteroskedastisitas), maka estimasi standar kesalahan, interval kepercayaan, dan uji hipotesis dalam analisis regresi mungkin menjadi tidak valid. Hal ini dapat mempengaruhi kesimpulan statistik dan interpretasi hasil.

3. Asumsi Tidak Adanya Multikolinieritas

Asumsi ini menyatakan bahwa tidak ada korelasi yang tinggi antara variabel independen dalam model regresi. Dalam kata lain, setiap variabel independen memberikan kontribusi unik dalam menjelaskan variabel dependen, dan tidak ada redundansi dalam informasi yang diberikan oleh variabel independen. Jika terdapat multikolinieritas yang signifikan, di mana variabel independen saling berkorelasi kuat, dapat menyebabkan masalah dalam analisis regresi. Multikolinieritas dapat menyebabkan koefisien regresi menjadi tidak stabil dan sulit diinterpretasikan dengan jelas.

4. Asumsi Tidak Adanya Autokorelasi

Asumsi ini mengatakan bahwa tidak ada korelasi antara kesalahan (error) pada pengamatan-pengamatan yang berbeda. Dalam kata lain, kesalahan pada satu pengamatan tidak terkait dengan kesalahan pada pengamatan lainnya. Jika terdapat autokorelasi dalam model regresi, dapat mempengaruhi keefektifan estimasi parameter dan validitas statistik inferensial. Autokorelasi sering terjadi dalam data deret waktu, di mana pengamatan yang berdekatan dalam waktu cenderung saling berkorelasi. Untuk mengatasi autokorelasi, metode analisis regresi yang khusus untuk data deret waktu seperti autoregresi dapat digunakan.

3 SOURCE CODE

3.1 Library

Terlebih dahulu kita memasang packages untuk melakukan analisis regresi sebagai berikut.

library(readxl)
library(tseries)

## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

library(zoo)

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(lmtest)
library(carData)
library(car)

library(readxl)

3.2 Input data

Selanjutnya, kita dapat memuat data ke dalam Rstudio dengan perintah berikut.

data <- read_excel("C:/Users/Lenovo/Documents/Komstat1.xlsx")
Y <- as.matrix(data$Kinerja, ncol=1)
n <- dim(Y)[1]
X1 <- data$Kompensasi
X2 <- data$Kepemimpinan
X3 <- data$`Disiplin_Kerja`
X0 <- rep(1,30)
X <- data.frame(X0, X1, X2, X3)
X <- as.matrix(X)

3.3 Melakukan Analisis Regresi

#penduga koefisien
beta_duga <- solve(t(X)%*%X)%*%(t(X)%*%Y)
beta_duga

##          [,1]
## X0 -0.8992365
## X1  0.3453577
## X2  0.3659207
## X3  0.3766932

#uji F
y_duga <- X%*%beta_duga
u_duga <- Y - y_duga
y_bar <- rep(mean(Y),n)

#menghitung analisis ragam
JKT <- t(Y-y_bar)%*%(Y-y_bar)
JKR <- t(y_duga-y_bar)%*%(y_duga-y_bar)
JKG <- JKT-JKR
JK <- c(JKR, JKG, JKT)
JK

## [1] 289.7260 160.1407 449.8667

k = 4 #banyaknya peubah
dbR <- k-1
dbT <- n-1
dbG <- dbT-dbR
db <- c(dbR, dbG, dbT)
KT <- JK/db

#membentuk tabel anova
SK <- c("Regresi", "Galat", "Total")
anova <- data.frame(SK, JK, db, KT)
names(anova) <- c("SK", "JK", "db", "KT")
anova

##        SK       JK db        KT
## 1 Regresi 289.7260  3 96.575333
## 2   Galat 160.1407 26  6.159256
## 3   Total 449.8667 29 15.512644

#menghitung uji F
SU_F <- anova$KT[1]/anova$KT[2]
SU_F

## [1] 15.67971

#menghitung pvalue
pvalue_f <- pf(SU_F, anova$db[1], anova$db[2], lower.tail=FALSE)
pvalue_f

## [1] 5.045078e-06

#uji T
var_cov <- anova$KT[2]*solve(t(X)%*%X)
var_cov

##            X0           X1           X2           X3
## X0 57.4931734 -0.722171073 -0.243883733 -0.453259843
## X1 -0.7221711  0.024721941  0.001535823 -0.009443719
## X2 -0.2438837  0.001535823  0.005861563 -0.004498064
## X3 -0.4532598 -0.009443719 -0.004498064  0.031726210

sd <- rep(0,k)
for (i in 1:k){
  sd[i] <- sqrt(var_cov[i,i])
}
sd

## [1] 7.58242530 0.15723213 0.07656085 0.17811853

thit <- beta_duga/sd
thit

##          [,1]
## X0 -0.1185948
## X1  2.1964829
## X2  4.7794762
## X3  2.1148459

pvalue_t <- 2*pt(abs(thit), anova$db[2], lower.tail=FALSE)
pvalue_t

##            [,1]
## X0 9.065079e-01
## X1 3.717211e-02
## X2 6.015103e-05
## X3 4.418564e-02

#koefisien determinasi
Rsq <- anova$JK[1]/anova$JK[3]
Rsq

## [1] 0.6440264

#FUNGSI LM

library(readxl)

#membentuk matriks
data <- read_excel("C:/Users/Lenovo/Documents/Komstat1.xlsx")
reg1 <- lm(Kinerja~Kompensasi+Kepemimpinan+Disiplin_Kerja,data=data) 
summary(reg1)

## 
## Call:
## lm(formula = Kinerja ~ Kompensasi + Kepemimpinan + Disiplin_Kerja, 
##     data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.409 -1.427 -0.029  1.375  4.518 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -0.89924    7.58243  -0.119   0.9065    
## Kompensasi      0.34536    0.15723   2.196   0.0372 *  
## Kepemimpinan    0.36592    0.07656   4.779 6.02e-05 ***
## Disiplin_Kerja  0.37669    0.17812   2.115   0.0442 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.482 on 26 degrees of freedom
## Multiple R-squared:  0.644,  Adjusted R-squared:  0.603 
## F-statistic: 15.68 on 3 and 26 DF,  p-value: 5.045e-06

3.4 Memeriksa Asumsi

3.4.1 Asumsi Normalitas

library(tseries)
sisa <- residuals(reg1)
jarque.bera.test(sisa)

## 
##  Jarque Bera Test
## 
## data:  sisa
## X-squared = 0.61593, df = 2, p-value = 0.7349

shapiro.test(sisa)

## 
##  Shapiro-Wilk normality test
## 
## data:  sisa
## W = 0.97946, p-value = 0.8111

library(zoo)

3.4.2 Asumsi Homoskedastisitas

library(lmtest)
bptest(reg1)

## 
##  studentized Breusch-Pagan test
## 
## data:  reg1
## BP = 5.1691, df = 3, p-value = 0.1598

3.4.3 Asumsi Nonautokorelasi

dwtest(reg1)

## 
##  Durbin-Watson test
## 
## data:  reg1
## DW = 1.9433, p-value = 0.4269
## alternative hypothesis: true autocorrelation is greater than 0

3.4.4 Asumsi Nonmultikolinieritas

library(car)
vif(reg1)

##     Kompensasi   Kepemimpinan Disiplin_Kerja 
##       1.128677       1.122460       1.245850

4 HASIL DAN PEMBAHASAN

4.1 Regresi Linier

model regresi linier :

Y = -0.89924 - 0.34536X1 - 0.36592X2 - 0.37669X3

Estimasi Koefisien Regresi:

Variabel independen X1 (kompensasi) memiliki koefisien regresi sebesar 0.34536, dengan tanda positif, yang menunjukkan pengaruh X1 terhadap variabel dependen Y linear.
Variabel independen X2 (kepemimpinan) memiliki koefisien regresi sebesar 0.36592, dengan tanda positif, yang menunjukkan pengaruh X2 terhadap variabel dependen Y linear.
Variabel independen X3 (disiplin kerja) memiliki koefisien regresi sebesar 0.37669, dengan tanda positif, yang menunjukkan pengaruh X3 terhadap variabel dependen Y linear.

Signifikansi Statistik:

Pengujian hipotesis menunjukkan bahwa koefisien regresi X1, X2, X3 memiliki pengaruh yang signifikan secara statistik dengan nilai p-value (0.0125) yang kurang dari tingkat signifikansi yang ditentukan (0.05).

Asumsi Regresi:

Asumsi normalitas terpenuhi karena plot residual menunjukkan distribusi yang normal.
Asumsi homoskedastisitas terpenuhi karena menunjukkan variasi yang konstan di semua level variabel independen.
Karena nilai DW terletak diantara 4-dU dan 4-dL, maka tidak ada kesimpulan.
Karena hasil perhitungan VIF < 10 maka memenuhi asumsi non multikolinieritas.

4.2 Uji asumsi Klasik

4.2.1 Uji Normalitas

Hipotesis

H₀: Sampel berasal dari populasi berdistribusi normal

H₁: Sampel tidak berasal dari populasi berdistribusi normal

α = 0.05

Statistik Uji

W = 0.97946

P-value = 0.8111

Keputusan

Karena P-value (0.8111) > α (0.05), maka Gagal Tolak H0

Interpretasi

Dapat disimpulkan bahwa sampel berasal dari populasi yang berdistribusi normal.

4.2.2 Uji Homoskedastisitas

Hipotesis

H₀: Variansi galat bersifat homoskedastisitas

H₁: Variansi galat bersifat heteroskedastisitas

α = 0.05

Statistik Uji

BP = 5.1691

P-value = 0.1598

Keputusan

Karena P-value (0.1598) > α (0.05), maka Gagal Tolak H0

Interpretasi

Dapat disimpulkan bahwa variansi galat bersifat homoskedastisitas.

4.2.3 Uji Nonautokorelasi

Hipotesis

H₀: Tidak terjadi autokorelasi

H₁: Terjadi autokorelasi

Statistik Uji

DW = 1.9433

P-value = 0.4269

Keputusan

Karena nilai DW terletak diantara 4-dU dan 4-dL, maka tidak ada kesimpulan.

4.2.4 Uji Nonmultikolinieritas

Interpretasi

Karena hasil perhitungan VIF < 10 maka memenuhi asumsi non multikolinieritas

KESIMPULAN

Analisis regresi akan memberikan gambaran tentang hubungan antara variabel independen dan dependen, seberapa signifikan variabel independen mempengaruhi variabel dependen, kualitas penjelasan model, dan asumsi-asumsi yang terpenuhi. Analisis regresi dapat dilakukan jika memenuhi asumsi normalitas, asumsi homoskedastisitas, asumsi non autokorelasi, dan asumsi non multikolinearitas.

DAFTAR PUSTAKA

Imam Ghozali. (2011). Aplikasi Analisis Multivariate Dengan Program IBM

SPSS19.Edisi 5. Semarang: Badan Penerbit Universitas Diponegoro.

Kutner, M. H., et al. 2005. Applied Linear Statistical Models: Fifth Edition. New York: The McGraw-Hill Companies, Inc.

Bingham, N. H. & Fry, J. M. 2010. Regression Linear Models in Statistics. New York: Springer London Dordrecht Heidelberg.

Analisis Regresi dan Asumsinya pada Rstudio

Vina Nur Titisari

29 Mei 2023