1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen (variabel penjelas) dan satu variabel dependen (variabel yang ingin diprediksi). Analisis regresi membantu dalam memahami bagaimana perubahan dalam variabel independen dapat mempengaruhi variabel dependen. Metode ini telah menjadi salah satu alat yang paling umum digunakan dalam statistika dan ilmu sosial.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi

Regresi menunjukkan hubungan signifikan antara variabel dependen dan independen. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen. Model ini dapat digunakan untuk melakukan prediksi dan juga untuk mengidentifikasi hubungan yang signifikan antara variabel-variabel tersebut. Regresi linier adalah salah satu bentuk paling umum dari analisis regresi, di mana

Hubungan antara variabel independen dan variabel dependen diperkirakan menggunakan persamaan garis lurus (Kutner, dkk., 2004).

2.2 Pemeriksaan Asumsi Regresi

Analisis regresi memerlukan asumsi tertentu, seperti asumsi normalitas, homoskedastisitas, ketiadaan multikolinearitas, dan ketiadaan autokorelasi.

  1. Asumsi Normalitas:

Asumsi ini menyatakan bahwa residual mengikuti distribusi normal (Agresti dan Finlay, 2009).

Jika asumsi ini terpenuhi, maka data dapat digunakan untuk pengujian statistik yang bergantung pada distribusi normal seperti analisis regresi.

  1. Asumsi Homoskedastisitas:

Asumsi ini menyatakan bahwa variansi residual adalah konstan di semua level variabel independen (Wooldridge, 2019).

Artinya, tidak ada pola tertentu dalam variansi residual seiring dengan perubahan nilai variabel independen.

  1. Asumsi Tidak Adanya Multikolinearitas:

Asumsi ini menyatakan bahwa tidak ada korelasi yang kuat antara variabel independen. Multikolinearitas dapat menyebabkan masalah dalam memperkirakan koefisien regresi dengan akurasi yang tinggi. Jika asumsi-asumsi ini tidak terpenuhi, metode penyesuaian seperti transformasi data atau teknik pemilihan variabel dapat diterapkan.

  1. Asumsi Tidak Adanya Autokorelasi:

Menurut Ghozali (2013:138) bahwa

Uji autokorelasi bertujuan menguji apakah dalam suatu model regresi linier ada korelasi antarkesalahan pengganggu (residual) pada teriode t dengan kesalahan pada periode t-1 (sebelumnya). Jika terjadi korelasi, maka dinamakan ada masalah autokorelasi.

Autokorelasi dapat mempengaruhi hasil analisis regresi dan menyebabkan kesalahan dalam pengambilan keputusan. Oleh karena itu, uji autokorelasi dilakukan untuk menunjukkan korelasi antara anggota observasi yang diurutkan berdasarkan waktu atau ruang (time series) (Akhmad, 2019).

Jika asumsi-asumsi regresi di atas tidak terpenuhi, perlu diambil langkah-langkah penyesuaian untuk memperbaiki masalah tersebut.

3 SOURCE CODE

Berikut ini merupakan tahapan melakukan analisis regresi sederhana maupun berganda di Rstudio:

3.1 Library

Terlebih dahulu kita memasang packages untuk melakukan analisis regresi sebagai berikut.

> library(ggplot2)
> library(dplyr)
> library(reshape2)
> library(lmtest)

3.2 Input Data

Selanjutnya, kita dapat memuat data ke dalam Rstudio dengan perintah berikut.

> # Mengganti "data.csv" dengan nama file data yang akan dimuat
> data_anda <- read.csv("data.csv", header=TRUE)
> data_anda
   Obs  Y X_1 X_2  X_3 X_4 X_5
1    1 20 301  36 1043  26  12
2    2 16 303  75 1052  31  27
3    3 19 338  68 1031  28  25
4    4 16 442  25 1043  19  35
5    5 21 340  34 1177  16   4
6    6 22 391   5 1079  18  36
7    7 22 334   6 1145  17   0
8    8 26 415   7 1183  15  10
9    9 21 428  25 1026  25  10
10  10 29 302  35 1091  26  35
11  11 29 304  55 1076  21  42
12  12 24 398  54 1048  14  26
13  13 24 326  59 1010  39  37
14  14 23 323  42 1050  29  14
15  15 20 421   1 1008  18  34
16  16 24 443  97 1060  20  15
17  17 21 403   2 1077  36  43
18  18 27 308  13 1115  21  14
19  19 15 444  95 1003  21   5
20  20 28 440  38 1136  30  47
21  21 21 337  54 1137  39  38
22  22 18 443  33 1137  14  50
23  23 26 427  28 1067  33  11
24  24 26 355  43 1019  20  14
25  25 28 378  23 1004  13  16
26  26 19 406  71 1020  27   2
27  27 15 445  16 1000  18  25
28  28 29 430  44 1030  31  34
29  29 23 321   3 1067  35  44
30  30 17 350  17 1174  20  30

3.3 Melakukan Analisis Regresi

Untuk melakukan analisis regresi, kita dapat menggunakan fungsi ‘lm(Variabel_dependen ~ variabel_independen(X1 ~ X2 ~ Xn), data = data_anda)’

Berikut ini contoh analisis regresi berganda terhadap data yang ingin diketahui pengaruh variabel X_1 sampai X_5 terhadap variabel Y.

> # Mengganti "variabel_dependen" dengan nama variabel dependen Anda dan "variabel_independen" dengan nama variabel independen Anda
> model <- lm(Y~X_1+X_2+X_3+X_4+X_5, data = data_anda)
> 
> #Menampilkan hasil analisis regresi
> summary(model)

Call:
lm(formula = Y ~ X_1 + X_2 + X_3 + X_4 + X_5, data = data_anda)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.8899 -2.9426 -0.8939  3.7719  7.4597 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.101683  21.339536   0.989    0.333
X_1         -0.014086   0.017223  -0.818    0.421
X_2         -0.014505   0.035056  -0.414    0.683
X_3          0.005654   0.016627   0.340    0.737
X_4          0.024399   0.127950   0.191    0.850
X_5          0.016290   0.063818   0.255    0.801

Residual standard error: 4.612 on 24 degrees of freedom
Multiple R-squared:  0.06212,   Adjusted R-squared:  -0.1333 
F-statistic: 0.3179 on 5 and 24 DF,  p-value: 0.8973

3.4 Memeriksa Asumsi Regresi

3.4.1 Asumsi Normalitas

Untuk asumsi normalitas, digunakan fungsi ‘ggplot’ untuk menampilkan plot dari residual persamaan regresi. Kemudian grafik ditambah dengan garis regresi untuk melihat pola residual dengan lebih jelas

> # Plot residual
> ggplot(data_anda, aes(sample = resid(model))) + 
+                                stat_qq() +
+                                geom_abline(color = "red") +
+                                labs(title = "Normal Q-Q Plot")

Plot yang berdistribusi normal akan memperlihatkan sebaran data yang mendekati garis lurus. Maka, dari plot di atas, dapat disimpulkan bahwa data tidak berdistribusi normal karena secaran data tidak mendekati model (garis lurus).

3.4.2 Asumsi Heteroskedastisitas

Untuk memeriksa asumsi berikut ini, kita perlu melihat plot antara Y fitted value terhadap nilai residual.

> # Plot residual terhadap nilai prediksi
> ggplot(data_anda, aes(x = fitted(model), 
+                       y = resid(model))) +
+                       geom_point() +
+                       geom_smooth() +
+   labs(title = "Plot Residual Terhadap Nilai Prediksi")
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'

Dari plot yang terbentuk, data-data hampir membentuk suatu pola, sehingga dapat dikatakan mungkin terjadi perbedaan ragam residual dan model belum memenuhi uji asumsi Heteroskedastisitas.

3.4.3 Asumsi Multikoliniearitas

Untuk memeriksa asumsi multikoliniearitas, perlu dibuat matriks korelasi data terlebih dahulu yang kemudian akan dibuat plot sebagai berikut.

> # Menghitung matriks korelasi
> cor_matrix <- cor(data_anda)
> 
> # Plot matriks korelasi
> ggplot(melt(cor_matrix), aes(x = Var1, y = Var2, fill = value)) +
+                          geom_tile() +
+                          scale_fill_gradient2() +
+                          labs(title = "Matriks Korelasi")

Warna dalam plot matriks korelasi dapat memberikan gambaran visual tentang kekuatan dan arah hubungan antara variabel. Warna yang lebih terang atau lebih intens menunjukkan hubungan yang lebih kuat, sedangkan warna yang lebih gelap menunjukkan hubungan yang lebih lemah. Warna positif (misalnya, semakin dekat ke merah) menunjukkan hubungan positif, sementara warna negatif (misalnya, semakin dekat ke biru) menunjukkan hubungan negatif.

Dalam interpretasi matriks korelasi, perhatikan pasangan variabel yang memiliki korelasi yang signifikan dan kuat.Multikolinearitas terjadi ketika terdapat korelasi yang kuat antara dua atau lebih variabel independen dalam model regresi.Misalnya pada data ini, X_4 memiliki korelasi yang cukup kuat dengan X_2 dan X_5, maka terjadi masalah multikolinearitas.

3.4.4 Asumsi Autokorelasi

Terakhir, untuk asumsi autokorelasi dapat dilihat dari uji Durbin-Watson yang terdapat pada library lmtest.

> # Tes Durbin-Watson
> dwtest(model)

    Durbin-Watson test

data:  model
DW = 1.8035, p-value = 0.2796
alternative hypothesis: true autocorrelation is greater than 0

Apabila p-value > alpha yang ditentukan (5%), maka terima H0, sehingga cukup bukti untuk menyatakan bahwa dengan tingkat kepercayaan 95%, tidak terdapat autokorelasi. Selanjutnya untuk uji Durbin-Watson dapat dilihat pada link berikut: Uji Durbin-Watson

4 HASIL DAN PEMBAHASAN

Setelah melakukan analisis regresi, diperoleh hasil-hasil berikut:

  1. Estimasi Koefisien Regresi:
  1. Signifikansi Statistik:

Pengujian hipotesis menunjukkan bahwa koefisien regresi X1, X2, X3, X4, dan X5 memiliki pengaruh yang tidak signifikan secara statistik dengan nilai p-value yang lebih besar dari tingkat signifikansi yang ditentukan (0.05).

  1. Asumsi Regresi:

Interpretasi:

Perlu dilakukan uji lebih lanjut untuk memperbaiki struktur data agar memnuhi asumsi-asumsi yang diperlukan sebelum dilakukan analisis regresi. Setelah asumsi terpenuhi, analisis regresi baru dapat dilakukan.

5 KESIMPULAN

Analisis regresi pada data ini masih mengandung kesalahan karena data yang digunakan belum memenuhi asumsi yang diperlukan. Maka, data harus melewati langkah-langkah penyesuaina terlebih dahulu untuk memenuhi asumsi-asumsi yang belum terpenuhi.

6 DAFTAR PUSTAKA