1 BAB I PENDAHULUAN

1.1 Latar Belakang

Analisis regresi pertama kali dikembangkan leh Sir Francis Galton, ahli statistik Inggris pada abad ke-19. Galton mempelajri ubungan antara tinggi orang tua dengan tinggi anak mereka. Dalam penelitiannya, Galton menemukan bahwa anak-anak rata-rata memiliki tinggi yang lebi mendekati rata-rata populasi dibandingkan dengan tinggi orang tua mereka. Penemuan ini mengarahkan Galton pada pengembangan konsep regresi yang kemudian juga banyak dikembangkan oleh ilmuwan lain.

Analisis regresi adalah teknik Statistik yang digunakan untuk mengevaluasi hubungan satu atau lebih variabel independen X1, X2, …, Xk dan variabel dependen kontinu Y (Jus’at, 2018). Regresi menunjukkan hubungan signifikan antara variabel dependen dan independen. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen. Model ini dapat digunakan untuk melakukan prediksi dan juga untuk mengidentifikasi hubungan yang signifikan antara variabel-variabel tersebut.

Dalam perkembangannya, analisis regresi menjadi salah satu alat statistik yang banyak digunakan di berbagai bidang, misalnya bidang sosial, ekonomi, ilmu alam, dan ilmu keehatan. Analisis regresi dapat memberi wawasan yang berharga tentang hubungan sebab - akibat antarvariabel yang relevan. Itulah mengapa banyak sekali penelitian yang menggunakan analisis regresi. Namun, banyak hal yang perlu diperhatikan dan dipelajari lebih dalam mengenai analisis regresi ini agar hasil dari analisis regresi ini dapat dimaksimalkan sebaik mungkin sesuai dengan tujuan penelitian.

2 BAB II KAJIAN PUSTAKA

2.1 Analisis Regresi

Analisis regresi adalah teknik Statistik yang digunakan untuk mengevaluasi hubungan satu atau lebih variabel independen X1, X2, …, Xk dan variabel dependen kontinu Y (Jus’at, 2018). Regresi menunjukkan hubungan signifikan antara variabel dependen dan independen. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen. Model ini dapat digunakan untuk melakukan prediksi dan juga untuk mengidentifikasi hubungan yang signifikan antara variabel-variabel tersebut.

Model regresi linier adalah model probabilistik yang menyatakan hubungan linier antara dua variabel di mana salah satu variabel dianggap mempengaruhi variabel lain (Suyono, 2012). Variabel yang mempengaruhi dinamakan variabel independen dan variabel yang dipengaruhi dinamakan variabel dependen.

Regresi menunjukkan hubungan signifikan antara variabel dependen dan variabel independen. Dalam analisis regresi model regresi digunakan untuk menggambarkan hubungan variabel independen dan dependen secara matematis. Model dapat digunakan untuk melakukan prediksi dan mengidentifikasi hubungan signifikan antara variabel tersebut.

Berdasarkan buku yang ditulis oleh Suyono (2012), terdapat dua model dalam regresi linier, yakni model regresi linier sederhana dan model regresi linier berganda. Regresi linier sederhana adalah bentuk dasar dari analisis regresi yang meliatkan satu variabel independen dan satu variabel dependen Menurut Gujarati dalam bukunya yang berjudul Basic Econometrics, regresi linier sederhana dapat didefinisikan sebagai berikut:

“Regresi linier sederhana adalah metode statistik yntuk mempelajari hubungan linier antara satu variabel dependen (variabel terikat) dan satu variabel independen (bebas),” Gujarati (2003).

Sedangkan regresi linier berganda merupakan model regresi linier yang melibatkan lebih dari satu variabel independen.Menurut Hair et al., dalam bukunya, Multivariate Data Analysis, model regresi linier berganda dapat didefinisikan sebagai berikut:

“Regresi linier berganda adalah metode statistik yang digunakan untuk mempelajari hubungan linier antara satu variabel dependen (variabel terikat) dan dua atau lebih variabel independen (variabel bebas),” Hair et al., 2006.”

2.1.1 Model Regresi Linier

2.1.1.1 Model Regresi Linier Sederhana

Model regresi linier sederhana dapat ditulis dalam persamaan sebagai berikut:

\[ Y = \beta_{0} + \beta_{1}X_{1} + \epsilon \]

Variabel Y merupakan variabel dependen, variabel X adalah variabel independen,nilai beta adalah parameter yang nilainya tidak diketahui, dan epsilon adalah galat acak.

2.1.1.2 Model Regresi Linier Berganda

\[ Y = \beta_{0} + \beta_{1}X_{1} + ... + \beta_{k}X_{k} + \epsilon \]

Parameter di sini adalah \beta dan \epsilon adalah galat acak. Model ini juga merupakan model linier yang memiliki 2 atau lebih variabel independen.

2.1.2 Langkah-Langkah Analisis dengan Metode Regresi Linier Sederhana

Dari jurnal yang dibuat oleh Harsiti dkk. (2022), dituliskan langkah-langkah untuk melakukan metode regresi linier sederhana sebagai berikut:

  1. Menentukan tujuan dari melakukan analisis regresi linier;

  2. Mengindentifikasi variabel faktor penyebab (X) dan variabel respons (Y);

  3. Melakukan pengumpulan data;

  4. Menghitung XY dan X2.

2.2 Asumsi Analisis Regresi

Dalam analisis regresi terdapat beberapa asumsi yang harus dipenuhi. Asumsi klasik ini harus dipenuhi agar penaksiran parameter dan koefisien regresi tidak bias. Asumsi tersebut adalah asumsi normalitas, asumsi homoskedastisitas, non-multikolinearitas, dan non-autokorelasi.

2.2.1 Normalitas Galat

Salah satu asumsi yang harus dipenuhi dalam regresi adalah normalitas galat atau galat berdistribusi normal. Asumsi ini mengatakan bahwa galat atau kesalahan dalam model berdistribusi normal atau mendekati normal. Artinya, galat harus memiliki rata-raa mendekati nol dan varians konstan di semua tingkat variabel independen. Jika asumsi galat terpenuhi, maka dapat dipercaya bahwa estimasi parameter regresi efisien dan benar. Asumsi ini dapat diuji dengan grafik residual maupun uji statistik.

“Asumsi normalitas galat ini menyatakan bahwa residu mengikuti distribusi normal,” Agresti dan Finlay (2009).

2.2.2 Homoskedastisitas

Asumsi Homoskedastisitas adalah asumsi yang menyatakan bahwa vaians dari galat dalam permodelan regresi harus konstan di semua tingkat variabel independen. Dalam kata lain tidak boleh ada pola tertentu dalam varians galat terhadap prediktor. Jika asumsi homoskedastisitas terpenuhi, hasil estimasi parameter regresi konsisten dan efisien. Akan tetapi jika asumsi tidak terpenuhi maka akan menyebabkan masalah heteroskedastisitas.

“Asumsi ini menyatakan bahwa varians residu atau galat harus konstan di semua tingkat variabel independen,” Gujarati, 2009.

2.2.3 Non-Multikolinearitas

Asumsi non-multikolinearitas menyatakan bahwa tidak ada hubungan linier sempurna atau mendekati sempurna antara variabel inedpenden dalam model regresi. Asumsi ini penting dalam analisis regresi berganda. Dalam asumsi ini, multikolieritas terjadi jika ada koreasi yang tinggi antara dua atau lebih variabel independen dalam model regresi. Korelasi tersebut dappat mengaburkan efek masing-masing variabel independen terhadap variabel dependen sehingga sulit menentukan kontribuasi unik dari tiap variabel independen.

“Tidak ada hubungan linier sempurna antarvariabel independen dalam model regresi. Tidak ada kombinasi linear yang tepat dari variabel independen yang dapat memprediksi variabel independen lainnya,” Gujarati, 2009.

2.2.4 Non-Autokorelasi

Asumsi penting terakhir adalah non-autokorelasi. Asumsi ini juga dikenal sebagai asumsi independensi galat. Asumsi ini adalah asumsi yang menyatakan bahwa tidak ada koelasi antara galat atau kesalahan dalam model regresi pada waktu yang berbeda. Artinya, galat antara observasi yang berbeda dalam analisis regresi tidak saling bekorelasi. Asumsi ini penting karena jika ada autokorelasi yang signifikan dalam galat akan menyebabkan kesalahan dalam interpretasi hasil regresi dan estimasi parameter yang tidak konsisten. Autokorelasi mengindikasikan adanya pola data yang tidak dijelaskan oleh variabel independen dalam model regresi.

“Uji autokorelasi bertujuan menguji apakah dalam model regresi linier terdapat korelasi antarkesalahan pengganggu (residual) pada periode t dengan kesalahan pada periode t-1. Jika terjadi korelasi, maka terdapat masalah autokorelasi,” Ghozali (2013:138).

3 BAB III SOURCE CODE

Pada bab ini akan dijelaskan mengenai tahapan analisis regresi sederhana maupun berganda pada software RStudio.

3.1 Library

Sebelum memulai analisis, terlebih dahulu harus install packages berikut ini:

library(ggplot2)
library(dplyr)
library(reshape2)
library(lmtest)

3.2 Input Data

#input file yang berisi data yang ingin dianalisis
data1 <- read.csv("C:/Users/ACER/Downloads/Salary_dataset.csv", header = TRUE)
data1
##     X YearsExperience Salary
## 1   0             1.2  39344
## 2   1             1.4  46206
## 3   2             1.6  37732
## 4   3             2.1  43526
## 5   4             2.3  39892
## 6   5             3.0  56643
## 7   6             3.1  60151
## 8   7             3.3  54446
## 9   8             3.3  64446
## 10  9             3.8  57190
## 11 10             4.0  63219
## 12 11             4.1  55795
## 13 12             4.1  56958
## 14 13             4.2  57082
## 15 14             4.6  61112
## 16 15             5.0  67939
## 17 16             5.2  66030
## 18 17             5.4  83089
## 19 18             6.0  81364
## 20 19             6.1  93941
## 21 20             6.9  91739
## 22 21             7.2  98274
## 23 22             8.0 101303
## 24 23             8.3 113813
## 25 24             8.8 109432
## 26 25             9.1 105583
## 27 26             9.6 116970
## 28 27             9.7 112636
## 29 28            10.4 122392
## 30 29            10.6 121873

3.3 Analisis Regresi

Untuk melakukan analisis regresi, kita dapat menggunakan fungsi ‘lm(Variabel_dependen ~ variabel_independen(X1 ~ X2 ~ Xn), data = data1)’

Berikut ini contoh analisis regresi linear sederhana terhadap data yang ingin diketahui pengaruh variabel X (YearsExperience) terhadap variabel Y (Salary).

#Menggunakan rumus lm untuk analisis regresi
anreg <- lm(Salary~YearsExperience, data = data1)
#Menampilkan hasil rangkuman dari analisis regresi sebelumnya
summary(anreg)
## 
## Call:
## lm(formula = Salary ~ YearsExperience, data = data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7958.0 -4088.5  -459.9  3372.6 11448.0 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      24848.2     2306.7   10.77 1.82e-11 ***
## YearsExperience   9450.0      378.8   24.95  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5788 on 28 degrees of freedom
## Multiple R-squared:  0.957,  Adjusted R-squared:  0.9554 
## F-statistic: 622.5 on 1 and 28 DF,  p-value: < 2.2e-16

3.4 Memeriksa Asumsi Analisis Regresi

3.4.1 Asumsi Normalitas

Uji yang pertama dilakukan adalah uji asumsi untuk normalitas ragam. Dalam uji ini digunakan fungsi “ggplot” untuk menampilkan plot residu persamaan regresi. Grafik tersebut dilengkapi dengan garis regresi untuk melihat pola residu.

#Plot residu uji normalitas
library("ggplot2")
ggplot(data1, aes(sample = resid(anreg)))+stat_qq()+geom_abline (color = "brown") + labs( title = "Normal Q-Q Plot")

Plot yang berdistribusi normal akan memperlihatkan sebaran data yang mendekati garis lurus. Maka dari plot yang telah terbentuk di atas dapat disimpulkan bahwa data tidak berdistribusi normal karena sebaran data tidak mendekati garis lurus.

3.4.2 Asumsi Heteroskedastisitas

Dalam menguji asumsi heteroskedastisitas diperlukan plot antara Y fitted value terhadap nilai residu

#Plot residu terhadap nilai prediksi 
ggplot(data1,aes(x = fitted(anreg),
                 y = resid(anreg))) +
  geom_point()+
  geom_smooth()+
  labs(title = "Plot Residu Terhadap Y Fitted Value")
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

Dari plot yang telah terbentuk di atas, dapat dilihat bahwa data hampir membentuk suatu pola. Maka dapat disimpulkan bahwa mungkin terjadi perbedaan ragam residu dan model sehingga belum memenuhi uji asumsi Heteroskedastisitas.

3.4.3 Asumsi Multikoliniearitas

Untuk menguji asumsi multikoliniearitas perlu dibuat matriks korelasi data yang kemudian akan dibuat plot.

#Menghitung matriks korelasi
cormat <- cor(data1)

#Plot matriks korelasi
library(reshape2)
ggplot(melt(cormat), aes(x = Var1, y = Var2, fill = value)) + 
  geom_tile() + scale_fill_gradient2() + labs(title = "Matriks Korelasi")

Warna dalam plot matriks korelasi memberikan gambaran visual tentang kekuatan dan arah hubungan antarvariabel. Warna yang lebih terang atau lebih intens menunjukkan hubungan yang lebih kuat sedangkan warna yang lebih gelap menunjukkan hubungan yang lebih lemah. Warna positif menunjukkan hubungan positif sedangkan warna negatif menunjukkan hubungan negatif.

Dalam interpretasi matriks korelasi perlu diperhatikan pasangan variabel yang memiliki korelasi signifikan. Multikolinearitas terjadi ketika terdapat korelasi kuat.

3.4.4 Asumsi Autokorelasi

Uji asumsi terakhir adalah uji autokorelasi. Uji ini dapat dilakukan dengan uji Durbin Watson.

#Uji Autokorelasi Durbin Watson
library("lmtest")
dwtest(anreg)
## 
##  Durbin-Watson test
## 
## data:  anreg
## DW = 1.648, p-value = 0.1178
## alternative hypothesis: true autocorrelation is greater than 0

Apabila p-value > alpha yang ditentukan (5%) maka gagal tolak H0, sehingga cukup bukti menyatakan bahwa dengan tingkat kepercayaan 95% tidak terdapat autokorelasi.

4 BAB IV HASIL DAN PEMBAHASAN

Setelah dilakukan analisis regresi, didapatkan hasil sebagai berikut:

1. Estimasi Koefisien Regresi

Variabel independen YearsExperience memiliki koefisien regresi sebesar 9450.0. Hal ini menunjukkan pengaruh YearsExperience terhadap variabel dependen Salary linear.

2. Signifikansi Statistik

Pengujian hipotesis menunjukkan bahwa koefisien regresi YearsExperience memiliki pengaruh yang sangat signifikan secara statistik karena p-value lebih kecil dari tingkat signifikansi yang ditentukan (0.05).

3. Asumsi Regresi

4. Interpretasi Dari keempat asumsi masih ada asumsi yang tidak terpenuhi sehingga perlu dilakukan perbaikan struktur data agar memenuhi asumsi yang diperlukan sebelum dilakukan analisis regresi.

5 BAB V KESIMPULAN DAN SARAN

Dari analisis regresi yang telah dilakukan, dapat disimpulkan bahwa data ini masih mengandung kesalahan karena belum memenuhi asumsi analisis regresi. Saran dari hal ini adalah bisa dilakukan langkah-langkah penyesuaian terlebih dahulu untuk memenuhi asumsi yang belum terpenuhi dan baru bisa dilakukan analisis regresi lagi.

6 DAFTAR PUSTAKA

Agresti, A., & Finlay, B. 2009. Statistical Methods for the Social Sciences (4th ed.). Pearson.

Gujarati, D.N. 2003. Basic Econometrics. McGraw-Hill.

Hair, J.F., Black, W.C., Babin, B.J., Anderson, R.E., & Tatham, R.L. 2006. Multivariate Data Analysis (6th ed.). Pearson Prentice Hall.

Harsiti., Muttaqin, Zaenal., Srihartini, Ela. 2022. Penerapan Metode Regresi Linier Sederhana untuk Produk Persediaan Obat Jenis Tablet. Serang: Jurusan Sistem Informasi Fakultas Teknologi Informasi Universitas Serang Raya.

Jus’at, Idrus. 2018. Analisis Regresi Pengolahan Data Gizi & Kesehatan. Yogyakarta: Rapha Publishing.

Kutner, M.J., Nachtsheim, C.J., Neter, J., & Li, W. 2004. Applied Linear Statistical Models (5th ed.). McGraw-Hill.

Suyono. 2012. Analisis Regresi untuk Penelitian. Yogyakarta: Deepublish.