1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi adalah salah satu metode statistic yang umum digunakan dalam kehidupan sehari-hari. Tujuan dasar dari analisis regresi adalah untuk mengetahui sejauh mana hubungan sebuah variable independen atau variabel independen X dan variable tidak bebas atau variabel dependen Y.

Variabel independen (X) adalah variabel yang mempengaruhi variabel dependen(Y). Sehingga , ketika menganalisis model regresi untuk mengetahui pengaruh signifikan antara variable independen X dan variable dependen Y, ada kemungkinan terjadi perbedaan hubungan linear yang berbeda dari variable dependen Y terhadap setiap interval variable X. Untuk itu, dilakukan analisis regresi untuk melihat besarnya hubungan antar variabel.

Analisis regresi sederhana adalah analisis yang digunakan untuk mengetahui hubungan satu variabel independent terhadap variabel dependen. Sedangkan, Analisis Regresi Berganda adalah model analisis regresi yang digunakan untuk menggambarkan hubungan antara variabel dependen dengan dua atau lebih variabel independen.

Secara umum Model regresi berganda dengan variabel dependen Y dan n variabel independen sebagai berikut: \[ Y= \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_nX_n +\epsilon \] Y = Variabel dependen

X = Variabel independen

\(\beta_0\)= intersept

\(\beta_n\)= koefisien untuk masing-masing variabel n

\(\epsilon\) = galat

1.2 Statistika Deskriptif

Statistika deskriptif adalah karakteristik dari kumpulan data. Statistik deskriptif terdiri dari dua ukuran, yaitu ukuran tendensi sentral yang mewakili nilai pusat dari suatu data dan ukuran variabilitas yang merupakan besar kecilnya penyebaran nilai-nilai variabel dari ukuran nilai sentral dari suatu data atau distribusi. Contoh ukuran tendensi sentral meliputi mean, median, dan modus. Sedangkan, ukuran variabilitas meliputi standar deviasi, varians, minimum, maksimum.

1.3 Uji Asumsi

1. Asumsi Normalitas

Uji asumsi normalitas dilakukan untuk mengetahui apakah nilai residual terdistibusi secara normal atau tidak. Uji asumsi normalitas dapat di analisis secara visual melalui plot normal q-q, sedangkan secara statistik dapat diuji menggunakan uji shapiro.wilk, Skewness Kurtosis, Kolmogrov Smirnov, Jarque Bera, dan lain-lain.

2. Asumsi Multikolinearitas

Uji asumsi Multikolinearitas terjadi apabila adanya hubungan linear yang sempurna antara variabel independen dalam model regresi. Uji asumsi multikolinearitas dapat dilihat dari nilai VIF. Jika VIF < 10, maka tidak terjadi multikolinearitas.

3. Asumsi Heteroskedastisitas

Asumsi Heteroskedastisitas terjadi ketika ada ketidaksamaan varian dari residual untuk semua pengamatan setiap variabel independent pada model regresi. Asumsi ini dapat diuji menggunakan uji Breusch-Pagan

4. Asumsi Autokorelasi

Asumsi autokorelasi merupakan keadaan dimana terjadinya korelasi antar residual pada periode t dengan kesalahan pada periode sebelumnya (t-1). Uji asumsi autokorelasi dapat diuji menggunakan uji Durbin Watson.

1.4 Data

> data()

Menggunakan perintah data() akan menghasilkan list datasets yang disediakan oleh R untuk dianalisis. Data yang digunakan pada project ini adalah data “trees”. Dataset ini memberikan pengukuran diameter, tinggi, dan volume kayu di 31 pohon sakura hitam yang ditebang.

Tujuan dari analisis ini adalah melihat hubungan variabel diameter dan tinggi pohon terhadap variabel volume pohon. Variabel yang digunakan sebagai berikut:

  • X1 = Diameter pohon (inches)
  • X2 = Tinggi pohon (ft)
  • Y = Volume pohon (\(ft^3\))

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> library(ggplot2)
> library(car)
> library(lmtest)

2.2 Membangkitkan Data

> data("trees")
> Diameter<-trees$Girth
> Tinggi<-trees$Height
> Volume<-trees$Volume
> df<-data.frame(Tinggi,Volume,Diameter)
> library(rmarkdown)
> paged_table(as.data.frame(df))

2.3 Plot

Visualisasi data untuk memahami korelasi data antar variabel secara visual menggunakan scatterplot

> #scatterplot
> plot(df, col='HotPink')

Untuk melihat korelasi antar variabel secara uji statistik dapat menggunakan uji pearson agar hasilnya lebih akurat.

2.4 Korelasi

> #Korelasi
> cor(Diameter,Tinggi, method = "pearson")
[1] 0.5192801
> cor(Volume,Diameter, method = "pearson")
[1] 0.9671194
> cor(Volume,Tinggi, method = "pearson")
[1] 0.5982497

Interpretasi

Variabel Volume dan Diameter mempunyai tingkat korelasi paling tinggi, dimana antar variabel saling mempengaruhi satu sama lain sebesar 96%.

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

> summary(df)
     Tinggi       Volume         Diameter    
 Min.   :63   Min.   :10.20   Min.   : 8.30  
 1st Qu.:72   1st Qu.:19.40   1st Qu.:11.05  
 Median :76   Median :24.20   Median :12.90  
 Mean   :76   Mean   :30.17   Mean   :13.25  
 3rd Qu.:80   3rd Qu.:37.30   3rd Qu.:15.25  
 Max.   :87   Max.   :77.00   Max.   :20.60  

3.2 Menyusun model regresi linear berganda

> reg <- lm(Volume~Diameter+Tinggi, data = df) 
> summary(reg)

Call:
lm(formula = Volume ~ Diameter + Tinggi, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.4065 -2.6493 -0.2876  2.2003  8.4847 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -57.9877     8.6382  -6.713 2.75e-07 ***
Diameter      4.7082     0.2643  17.816  < 2e-16 ***
Tinggi        0.3393     0.1302   2.607   0.0145 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.882 on 28 degrees of freedom
Multiple R-squared:  0.948, Adjusted R-squared:  0.9442 
F-statistic:   255 on 2 and 28 DF,  p-value: < 2.2e-16

Model regresi \[ Volume = -57.9877 + 4.7082(Diameter) + 0.3393(Tinggi) \] Interpretasi

Berdasarkan model regresi yang didapatkan, maka didapatkan kesimpulan sebagai berikut:

  1. Setiap kenaikan nilai diameter sebesar 1 satuan menyebabkan Volume naik sebesar 4.7082 dengan asumsi variabel lain konstan.

  2. Setiap kenaikan nilai tinggi sebesar 1 satuan menyebabkan Volume naik sebesar 0.3393 dengan asumsi variabel lain konstan.

  3. Hubungan linear antara variabel terikat sebesar 94.8%

3.3 Uji Asumsi

> #plot
> par(mfrow = c(2,2), col= 'cadetblue')
> plot(reg)

> plot(reg, 4)
> plot(reg, 5)

1. Uji Asumsi Normalitas

> sisa<-resid(reg)
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.97431, p-value = 0.644

Kesimpulan : Karena p-value (0.64) > alpha (0.05), maka gagal tolak H0. Sehingga tidak terbukti ada pelanggaran asumsi normalitas pada residual.

2. Asumsi Multikolinearitas

> vif(reg) 
Diameter   Tinggi 
 1.36921  1.36921 

Kesimpulan : Karena nilai VIF < 5, maka tidak terjadi multikolinearitas. Sehingga tidak terbukti ada pelanggaran asumsi multikolinearitas pada residual.

3. Uji Asumsi Heterokedastisitas

> bptest(reg)

    studentized Breusch-Pagan test

data:  reg
BP = 2.4681, df = 2, p-value = 0.2911

Kesimpulan : Karena p-value (0.2911) > alpha (0.05), maka gagal tolak H0. Sehingga tidak terbukti ada pelanggaran asumsi heterokedastisitas pada residual

4. Uji Asumsi Autokorelasi

> dwtest(reg)

    Durbin-Watson test

data:  reg
DW = 1.2665, p-value = 0.00917
alternative hypothesis: true autocorrelation is greater than 0

Kesimpulan : Karena p-value (0.00917) < alpha (0.05), maka tolak H0. Sehingga terbukti ada pelanggaran asumsi auto korelasi pada residual.

4 DAFTAR PUSTAKA

MARDIATMOKO, G.-. (2020). Pentingnya Uji Asumsi Klasik Pada Analisis Regresi Linier Berganda. BAREKENG: Jurnal Ilmu Matematika Dan Terapan, 14(3), 333–342. https://doi.org/10.30598/barekengvol14iss3pp333-342

https://rpubs.com/Subhalaxmi/700597