1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen (variabel penjelas) dan satu variabel dependen (variabel yang ingin diprediksi). Analisis regresi membantu dalam memahami bagaimana perubahan dalam variabel independen dapat mempengaruhi variabel dependen. Metode ini telah menjadi salah satu alat yang paling umum digunakan dalam statistika dan ilmu sosial.
2 TINJAUAN PUSTAKA
2.1 Analisis Regresi
Regresi menunjukkan hubungan signifikan antara variabel dependen dan independen. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen. Model ini dapat digunakan untuk melakukan prediksi dan juga untuk mengidentifikasi hubungan yang signifikan antara variabel-variabel tersebut. Regresi linier adalah salah satu bentuk paling umum dari analisis regresi, di mana
Hubungan antara variabel independen dan variabel dependen diperkirakan menggunakan persamaan garis lurus (Kutner, dkk., 2004).
2.2 Pemeriksaan Asumsi Regresi
Analisis regresi memerlukan asumsi tertentu, seperti asumsi normalitas, homoskedastisitas, ketiadaan multikolinearitas, dan ketiadaan autokorelasi.
- Asumsi Normalitas:
Asumsi ini menyatakan bahwa residual mengikuti distribusi normal (Agresti dan Finlay, 2009).
Jika asumsi ini terpenuhi, maka data dapat digunakan untuk pengujian statistik yang bergantung pada distribusi normal seperti analisis regresi.
- Asumsi Homoskedastisitas:
Asumsi ini menyatakan bahwa variansi residual adalah konstan di semua level variabel independen (Wooldridge, 2019).
Artinya, tidak ada pola tertentu dalam variansi residual seiring dengan perubahan nilai variabel independen.
- Asumsi Tidak Adanya Multikolinearitas:
Asumsi ini menyatakan bahwa tidak ada korelasi yang kuat antara variabel independen. Multikolinearitas dapat menyebabkan masalah dalam memperkirakan koefisien regresi dengan akurasi yang tinggi. Jika asumsi-asumsi ini tidak terpenuhi, metode penyesuaian seperti transformasi data atau teknik pemilihan variabel dapat diterapkan.
- Asumsi Tidak Adanya Autokorelasi:
Menurut Ghozali (2013:138) bahwa
Uji autokorelasi bertujuan menguji apakah dalam suatu model regresi linier ada korelasi antarkesalahan pengganggu (residual) pada teriode t dengan kesalahan pada periode t-1 (sebelumnya). Jika terjadi korelasi, maka dinamakan ada masalah autokorelasi.
Autokorelasi dapat mempengaruhi hasil analisis regresi dan menyebabkan kesalahan dalam pengambilan keputusan. Oleh karena itu, uji autokorelasi dilakukan untuk menunjukkan korelasi antara anggota observasi yang diurutkan berdasarkan waktu atau ruang (time series) (Akhmad, 2019).
Jika asumsi-asumsi regresi di atas tidak terpenuhi, perlu diambil langkah-langkah penyesuaian untuk memperbaiki masalah tersebut.
3 SOURCE CODE
Berikut ini merupakan tahapan melakukan analisis regresi sederhana maupun berganda di Rstudio:
3.1 Library
Terlebih dahulu kita memasang packages untuk melakukan analisis regresi sebagai berikut.
> library(ggplot2)
> library(dplyr)
> library(reshape2)
> library(lmtest)3.2 Input Data
Selanjutnya, kita dapat memuat data ke dalam Rstudio dengan perintah berikut.
> # Mengganti "data.csv" dengan nama file data yang akan dimuat
> data_anda <- read.csv("data.csv", header=TRUE)
> data_anda
Obs Y X_1 X_2 X_3 X_4 X_5
1 1 20 301 36 1043 26 12
2 2 16 303 75 1052 31 27
3 3 19 338 68 1031 28 25
4 4 16 442 25 1043 19 35
5 5 21 340 34 1177 16 4
6 6 22 391 5 1079 18 36
7 7 22 334 6 1145 17 0
8 8 26 415 7 1183 15 10
9 9 21 428 25 1026 25 10
10 10 29 302 35 1091 26 35
11 11 29 304 55 1076 21 42
12 12 24 398 54 1048 14 26
13 13 24 326 59 1010 39 37
14 14 23 323 42 1050 29 14
15 15 20 421 1 1008 18 34
16 16 24 443 97 1060 20 15
17 17 21 403 2 1077 36 43
18 18 27 308 13 1115 21 14
19 19 15 444 95 1003 21 5
20 20 28 440 38 1136 30 47
21 21 21 337 54 1137 39 38
22 22 18 443 33 1137 14 50
23 23 26 427 28 1067 33 11
24 24 26 355 43 1019 20 14
25 25 28 378 23 1004 13 16
26 26 19 406 71 1020 27 2
27 27 15 445 16 1000 18 25
28 28 29 430 44 1030 31 34
29 29 23 321 3 1067 35 44
30 30 17 350 17 1174 20 303.3 Melakukan Analisis Regresi
Untuk melakukan analisis regresi, kita dapat menggunakan fungsi ‘lm(Variabel_dependen ~ variabel_independen(X1 ~ X2 ~ Xn), data = data_anda)’
Berikut ini contoh analisis regresi berganda terhadap data yang ingin diketahui pengaruh variabel X_1 sampai X_5 terhadap variabel Y.
> # Mengganti "variabel_dependen" dengan nama variabel dependen Anda dan "variabel_independen" dengan nama variabel independen Anda
> model <- lm(Y~X_1+X_2+X_3+X_4+X_5, data = data_anda)
>
> #Menampilkan hasil analisis regresi
> summary(model)
Call:
lm(formula = Y ~ X_1 + X_2 + X_3 + X_4 + X_5, data = data_anda)
Residuals:
Min 1Q Median 3Q Max
-6.8899 -2.9426 -0.8939 3.7719 7.4597
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.101683 21.339536 0.989 0.333
X_1 -0.014086 0.017223 -0.818 0.421
X_2 -0.014505 0.035056 -0.414 0.683
X_3 0.005654 0.016627 0.340 0.737
X_4 0.024399 0.127950 0.191 0.850
X_5 0.016290 0.063818 0.255 0.801
Residual standard error: 4.612 on 24 degrees of freedom
Multiple R-squared: 0.06212, Adjusted R-squared: -0.1333
F-statistic: 0.3179 on 5 and 24 DF, p-value: 0.89733.4 Memeriksa Asumsi Regresi
3.4.1 Asumsi Normalitas
Untuk asumsi normalitas, digunakan fungsi ‘ggplot’ untuk menampilkan plot dari residual persamaan regresi. Kemudian grafik ditambah dengan garis regresi untuk melihat pola residual dengan lebih jelas
> # Plot residual
> ggplot(data_anda, aes(sample = resid(model))) +
+ stat_qq() +
+ geom_abline(color = "red") +
+ labs(title = "Normal Q-Q Plot")Plot yang berdistribusi normal akan memperlihatkan sebaran data yang mendekati garis lurus. Maka, dari plot di atas, dapat disimpulkan bahwa data tidak berdistribusi normal karena secaran data tidak mendekati model (garis lurus).
3.4.2 Asumsi Heteroskedastisitas
Untuk memeriksa asumsi berikut ini, kita perlu melihat plot antara Y fitted value terhadap nilai residual.
> # Plot residual terhadap nilai prediksi
> ggplot(data_anda, aes(x = fitted(model),
+ y = resid(model))) +
+ geom_point() +
+ geom_smooth() +
+ labs(title = "Plot Residual Terhadap Nilai Prediksi")
`geom_smooth()` using method = 'loess' and formula = 'y ~ x'Dari plot yang terbentuk, data-data hampir membentuk suatu pola, sehingga dapat dikatakan mungkin terjadi perbedaan ragam residual dan model belum memenuhi uji asumsi Heteroskedastisitas.
3.4.3 Asumsi Multikoliniearitas
Untuk memeriksa asumsi multikoliniearitas, perlu dibuat matriks korelasi data terlebih dahulu yang kemudian akan dibuat plot sebagai berikut.
> # Menghitung matriks korelasi
> cor_matrix <- cor(data_anda)
>
> # Plot matriks korelasi
> ggplot(melt(cor_matrix), aes(x = Var1, y = Var2, fill = value)) +
+ geom_tile() +
+ scale_fill_gradient2() +
+ labs(title = "Matriks Korelasi")Warna dalam plot matriks korelasi dapat memberikan gambaran visual tentang kekuatan dan arah hubungan antara variabel. Warna yang lebih terang atau lebih intens menunjukkan hubungan yang lebih kuat, sedangkan warna yang lebih gelap menunjukkan hubungan yang lebih lemah. Warna positif (misalnya, semakin dekat ke merah) menunjukkan hubungan positif, sementara warna negatif (misalnya, semakin dekat ke biru) menunjukkan hubungan negatif.
Dalam interpretasi matriks korelasi, perhatikan pasangan variabel yang memiliki korelasi yang signifikan dan kuat.Multikolinearitas terjadi ketika terdapat korelasi yang kuat antara dua atau lebih variabel independen dalam model regresi.Misalnya pada data ini, X_4 memiliki korelasi yang cukup kuat dengan X_2 dan X_5, maka terjadi masalah multikolinearitas.
3.4.4 Asumsi Autokorelasi
Terakhir, untuk asumsi autokorelasi dapat dilihat dari uji Durbin-Watson yang terdapat pada library lmtest.
> # Tes Durbin-Watson
> dwtest(model)
Durbin-Watson test
data: model
DW = 1.8035, p-value = 0.2796
alternative hypothesis: true autocorrelation is greater than 0Apabila p-value > alpha yang ditentukan (5%), maka terima H0, sehingga cukup bukti untuk menyatakan bahwa dengan tingkat kepercayaan 95%, tidak terdapat autokorelasi. Selanjutnya untuk uji Durbin-Watson dapat dilihat pada link berikut: Uji Durbin-Watson
4 HASIL DAN PEMBAHASAN
Setelah melakukan analisis regresi, diperoleh hasil-hasil berikut:
- Estimasi Koefisien Regresi:
- Variabel independen X1 memiliki koefisien regresi sebesar -0.014, dengan tanda negatif, yang menunjukkan pengaruh X1 terhadap variabel dependen Y tidak linear.
- Variabel independen X2 memiliki koefisien regresi sebesar -0.0145, dengan tanda negatif, yang menunjukkan pengaruh X2 terhadap variabel dependen Y tidak linear.
- Variabel independen X3 memiliki koefisien regresi sebesar 0.005, dengan tanda positif, yang menunjukkan pengaruh X3 terhadap variabel dependen Y linear.
- Variabel independen X4 memiliki koefisien regresi sebesar 0.024, dengan tanda positif, yang menunjukkan pengaruh X4 terhadap variabel dependen Y linear.
- Variabel independen X5 memiliki koefisien regresi sebesar 0.016, dengan tanda positif, yang menunjukkan pengaruh X5 terhadap variabel dependen Y linear.
- Signifikansi Statistik:
Pengujian hipotesis menunjukkan bahwa koefisien regresi X1, X2, X3, X4, dan X5 memiliki pengaruh yang tidak signifikan secara statistik dengan nilai p-value yang lebih besar dari tingkat signifikansi yang ditentukan (0.05).
- Asumsi Regresi:
- Asumsi normalitas tidak terpenuhi karena plot residual menunjukkan distribusi yang jauh dari normal.
- Asumsi homoskedastisitas tidak terpenuhi karena plot residual menunjukkan variasi yang tidak konstan di semua level variabel independen.
- Ditemukan bukti adanya multikolinearitas antara variabel X4 dengan variabel X2 dan X5.
- Tidak ditemukan adanya autokorelasi karena data bukan merupakan data runtun waktu (time series)
Interpretasi:
Perlu dilakukan uji lebih lanjut untuk memperbaiki struktur data agar memnuhi asumsi-asumsi yang diperlukan sebelum dilakukan analisis regresi. Setelah asumsi terpenuhi, analisis regresi baru dapat dilakukan.
5 KESIMPULAN
Analisis regresi pada data ini masih mengandung kesalahan karena data yang digunakan belum memenuhi asumsi yang diperlukan. Maka, data harus melewati langkah-langkah penyesuaina terlebih dahulu untuk memenuhi asumsi-asumsi yang belum terpenuhi.
6 DAFTAR PUSTAKA
Agresti, A., & Finlay, B. (2009). Statistical Methods for the Social Sciences (4th ed.). Pearson.
Akhmad. “Uji Asumsi Autokorelasi Dengan Eviews.” Maris Science, 20 Maret 2019, https://www.marisscience.com/2019/03/uji-asumsi-autokorelasi-dengan-eviews.html?m=1.
Ghozali, Imam. 2013. Aplikasi Analisis Multivariate dengan Program IBM SPSS 21 Update PLS Regresi. Semarang: Badan Penerbit Universitas Diponegoro.
Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied Linear Statistical Models (5th ed.). McGraw-Hill.
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.