1 PENDAHULUAN
1.1 Latar Belakang
Pendapatan merupakan bentuk balas jasa yang diterima oleh faktor-faktor produksi dalam jangka waktu tertentu. Balas jasa waktu tersebut dapat berupa sewa, upah/ gaji, bunga ataupun laba. Pendapatan pribadi dapat diartikan sebagai semua jenis pendapatan, termasuk pendapatan yang diperoleh tanpa memberikan sesuatu kegiatan apapun, yang diterima oleh penduduk suatu negara.
Umur merupakan salah satu faktor yang mempengaruhi pendapatan. Di masa produktif, secara umum semakin bertambahnya umur maka pendapatan akan semakin meningkat, yang tergantung juga pada jenis pekerjaan yang dilakukan.Kekuatan fisik seseorang untuk melakukan aktivitas sangat erat kaitannya dengan umurkarena bila umur seseorang telah melewati masa produktif, maka semakin menurunkekuatan fisiknya sehingga produktivitasnya pun menurun dan pendapatan juga ikut turun.
Pengalaman kerja merupakan salah satu faktor dalam mendukung pelaksanaan kegiatan kerja. Pengalaman kerja seseorang menunjukan jenis-jenis pekerjaan yang pernah dilakukan seseorang dan memberikan peluang yang besar bagi seseorang untuk melakukan pekerjaan yang lebih baik.Dari banyaknya pengalaman kerja seseorang dan usia produktif seseorang mempengaruhi pendapatan seseorang.
1.2 Tinjauan Pustaka
1.2.1 Analisis Regresi Berganda
Analisis regresi linier berganda adalah analisis yang digunakan untuk mengetahui pengaruh antara variabel dependen dan variabel independen. Analisis regresi linear berganda pada penelitian ini digunakan untuk meramalkan bagaimana keadaan variabel dependen. Bila variabel independen sebagai indikator. Analisis ini digunakan dengan melibatkan dua atau lebih variabel bebas antara variabel dependen (Y) dan variabel independen (\(X_1\), \(X_2\), …. , \(X_r\)). Model persamaan regresi linier berganda sebagai berikut.
\[ Y=\beta_0+\beta_1X_1+...+\beta_rX_r+\varepsilon, i=1,2,...,r \]
Jika hanya terdapat dua variabel bebas, maka bentuk persamaan tersebut akan berubah menjadi :
\[ Y = \beta_0+\beta_1X_1+\beta_2X_2+\varepsilon_i \] Dari bentuk tersebut, dapat diduga oleh persamaan
\[ \hat{Y} = b_0 +b_1X_1+b_2X_2+\varepsilon_i \]
melalui pendekatan matriks dengan penentuan penduga \(\beta\)
\[ \beta= \left (X^{T}X \right )^{-1}\left ( X^{T}Y \right ) \]
1.2.2 Pengujian Hipotesis Analisis Regresi
- Uji Simultan (Uji F)
Uji F dilakukan untuk mengetahui apakah variabel independen secara bersama- sama mempengaruhi variabel dependen.
Hipotesis
Statistik uji
Kriteria
Apabila \(F_{hitung}\) < \(F_{tabel}\) dan P-Value > \(\alpha\), maka keputusan \(H_0\) diterima. Disimpulkan bahwa variabel prediktor tidak berpengaruh terhadap variabel respons
Apabila \(F_{hitung}\) > \(F_{tabel}\) dan P-Value < \(\alpha\), maka keputusan \(H_0\) ditolak. Disimpulkan bahwa variabel prediktor berpengaruh terhadap variabel respons
- Uji Parsial (Uji t)
Uji t dipergunakan untuk menguji hipotesis penelitian mengenai pengaruh dari masing masing variable bebas secara parsial terhadap variabel terikat.
Hipotesis :Kriteria
Apabila \(t_{hitung}\) < \(t_{tabel}\) dan P-Value > \(\alpha\), maka keputusan \(H_0\) diterima. Disimpulkan bahwa variabel prediktor tidak berpengaruh terhadap variabel respons
Apabila \(t_{hitung}\) > \(t_{tabel}\) dan P-Value < \(\alpha\), maka keputusan \(H_0\) ditolak. Disimpulkan bahwa variabel prediktor berpengaruh terhadap variabel respons
1.2.3 Koefisien Determinasi
Pengujian koefisien determinasi dilakukan untuk mengukur kemampuan model dalam menerangkan seberapa besar pengaruh variabel prediktor secara bersama-sama mempengaruhi variabel dependen melalui besaran nilai R-Squared adjusted. Nilai koefisien deteminasi dapat diperoleh dari :
1.2.4 Uji Asumsi
- Asumsi Normalitas Galat
Uji Normalitas merupakan pengujian yang digunakan untuk mengetahui apakah variabel prediktor maupun respon berdistribusi normal atau tidak dengan cara uji normalitas pada galat. Untuk melakukan uji normalitas ini dapat menggunakan uji Jarque Berra dan Shapiro Wilk.
Hipotesis:
\(H_0\) : galat berdistribusi normal
\(H_1\) : galat tidak berdistribusi normal
Uji Jarque-Bera
\[ JB=\frac{n}{6}\left ( S^{2} +\frac{\left ( K-3 \right )^{2}}{4}\right ) \]
Uji Shapiro Wilk
Dimana
Kriteria :
Apabila P-Value > \(\alpha\), maka keputusan \(H_0\) diterima. Disimpulkan bahwa data yang digunakan sudah berdistribusi normal
Apabila P-Value < \(\alpha\), maka keputusan \(H_0\) ditolak. Disimpulkan bahwa data yang digunakan tidak berdistribusi normal
- Asumsi Homoskedastisitas
Uji homogenitas adalah pengujian yang dilakukan untuk mengetahui sama tidaknya variansi-variansi dua buah distribusi atau lebih. Uji homogenitas dapat dilakukan dengan uji Breusch-Pagan. Metode ini merupakan perhitungan yang sederhana menggunakan R-Square (R²) dari beberapa persamaan yang diregresikan.
Hipotesis
\(H_0\) :Homogenitas galat terpenuhi \(H_1\) :Homogenitas galat tidak terpenuhi
Uji Breusch-Pagan
Kriteria :
Apabila P-Value > \(\alpha\), maka keputusan \(H_0\) diterima. Disimpulkan bahwa data mempunyai ragam galat homogen
Apabila P-Value < \(\alpha\), maka keputusan \(H_0\) ditolak. Disimpulkan bahwa data mempunyai ragam galat yang tidak homogen
- Asumsi Non Autokorelasi
Uji ini bertujuan untuk mengidentifikasi apakah variabel galat atau error model statistik saling berhubungan (berkorelasi) atau tidak. Korelasi yang dimaksud adalah bahwa antar error amatan satu dengan amatan yang lainnya tidak terdapat hubungan yang kuat apalagi sempurna. Nilai korelasi biasanya paling minimal -1 dan paling maksimal adalah 1. Salah satu metode yang dapat digunakan untuk menguji autokoreasi adalah uji Durbin Watson.
Hipotesis
\(H_0\) :Tidak terjadi kasus autokorelasi
\(H_1\) :Terjadi autokorelasi
Uji Durbin Watson
Dengan
\[ e_t = Y_t - \hat{Y_t} \]
Kriteria
- Asumsi Non Multikolinearitas
Multikolinieritas berarti terdapat korelasi atau hubungan yang sangat tinggi di antara variabel independen. Ada beberapa tanda suatu regresi linier berganda memiliki masalah dengan multikolinieritas, yaitu nilai R Square tinggi, tetapi hanya ada sedikit variabel independen yang signifikan atau bahkan tidak signifikan. Pendeteksian adanya multikolinearitas dapat dilakukan dengan melihat nilai Variance Inflation Factor Hipotesis
\(H_0\) :Tidak terjadi multikolinearitas
\(H_1\) :Terjadi multikolinearitas
\[ VIF_j = \frac{1}{1-R_{j}^{2}} \] Kriteria Tolak \(H_0\) jika nilai VIF > 10
1.3 Data
Data yang dianalisis merupakan data yang diambil dari website kaggle dengan tiga variabel yaitu pendapatan (income), usia (age), dan pengalaman (experience). Dari ketiga variabel itu kemudian didefinisikan sebagai berikut: 1. Pendapatan sebagai variabel respons(Y) 2. Usia sebagai variabel prediktor (\(X_1\)) 3. Pengalaman sebaagi variabel prediktor (\(X_2\))
1.4 Tujuan
Tujuan yang ingin dicapai dalam analisis ini sebagai berikut.
- Untuk mengetahui pengaruh usia dan banyaknya pengalaman kerja terhadap pendapatan
- Untuk mengetahui apakah tingkat usia dan banyaknya pengalaman kerja berpengaruh secara simultan terhadap pendapatan
- Untuk mengetahui apakah tingkat usia dan banyaknya pengalaman kerja berpengaruh secara parsial terhadap pendapatan
- Untuk mengetahui apakah data yang digunakan memenuhi asumsi klasik normalitas, homoskedastisitas, non autokorelasi, dan non multikolinearitas pada regresi linier berganda
2 SOURCE CODE
2.2 Impor Data
> data <- read.csv("C:/Users/User/Downloads/multiple_linear_regression_dataset (1).csv",sep = "," )
> #Mengubah data ke dalam bentuk matriks
> Y <- as.matrix(data$income, ncol=1)
> n <- dim(Y)[1]
> X1 <- data$age
> X2 <- data$experience
> X0 <- rep(1,n)
> X <- data.frame(X0, X1, X2)
> X <- as.matrix(X)
> X
X0 X1 X2
[1,] 1 25 1
[2,] 1 30 3
[3,] 1 47 2
[4,] 1 32 5
[5,] 1 43 10
[6,] 1 51 7
[7,] 1 28 5
[8,] 1 33 4
[9,] 1 37 5
[10,] 1 39 8
[11,] 1 29 1
[12,] 1 47 9
[13,] 1 54 5
[14,] 1 51 4
[15,] 1 44 12
[16,] 1 41 6
[17,] 1 58 17
[18,] 1 23 1
[19,] 1 44 9
[20,] 1 37 102.3 Penghitungan Analisis Regresi manual
> #penduga koefisien
> beta_duga <- solve(t(X)%*%X)%*%(t(X)%*%Y)
> beta_duga
[,1]
X0 31261.68985
X1 -99.19536
X2 2162.40419
> #uji F
> y_duga <- X%*%beta_duga
> u_duga <- Y - y_duga
> y_bar <- rep(mean(Y),n)
> #menghitung analisis ragam
> JKT <- t(Y-y_bar)%*%(Y-y_bar)
> JKR <- t(y_duga-y_bar)%*%(y_duga-y_bar)
> JKG <- JKT-JKR
> JK <- c(JKR, JKG, JKT)
> k = 3 #banyaknya peubah
> dbR <- k-1
> dbT <- n-1
> dbG <- dbT-dbR
> db <- c(dbR, dbG, dbT)
> KT <- JK/db
> #membentuk tabel anova
> SK <- c("Regresi", "Galat", "Total")
> anova <- data.frame(SK, JK, db, KT)
> names(anova) <- c("SK", "JK", "db", "KT")
> anova
SK JK db KT
1 Regresi 1322700815 2 661350408
2 Galat 30672680 17 1804275
3 Total 1353373495 19 71230184
> #menghitung uji F
> SU_F <- anova$KT[1]/anova$KT[2]
> SU_F
[1] 366.5463
> #menghitung pvalue
> pvalue_f <- pf(SU_F, anova$db[1], anova$db[2], lower.tail=FALSE)
> pvalue_f
[1] 1.047947e-14
> #uji T
> var_cov <- anova$KT[2]*solve(t(X)%*%X)
> sd <- rep(0,k)
> for (i in 1:k){
+ sd[i] <- sqrt(var_cov[i,i])
+ }
> sd
[1] 1306.43659 38.97863 94.76983
> thit<-t(beta_duga)/sd
> thit
X0 X1 X2
[1,] 23.92898 -2.544865 22.81743
> pvalue_t <- 2*pt(abs(thit), anova$db[2], lower.tail=FALSE)
> pvalue_t
X0 X1 X2
[1,] 1.567157e-14 0.02092977 3.437448e-14
> #koefisien determinasi
> Rsq <- anova$JK[1]/anova$JK[3]
> Rsq
[1] 0.97733612.4 Penghitungan Analisis Regresi Berganda dengan fungsi lm
> reg1<-lm(income~age+experience,data)
> reg1
Call:
lm(formula = income ~ age + experience, data = data)
Coefficients:
(Intercept) age experience
31261.7 -99.2 2162.4
> summary(reg1)
Call:
lm(formula = income ~ age + experience, data = data)
Residuals:
Min 1Q Median 3Q Max
-2707.43 -584.21 25.85 925.75 2043.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31261.69 1306.44 23.929 1.57e-14 ***
age -99.20 38.98 -2.545 0.0209 *
experience 2162.40 94.77 22.817 3.44e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1343 on 17 degrees of freedom
Multiple R-squared: 0.9773, Adjusted R-squared: 0.9747
F-statistic: 366.5 on 2 and 17 DF, p-value: 1.048e-142.5 Uji Asumsi Klasik Regresi Linier Berganda
> # ASUMSI NORMALITAS
> library(tseries)
> sisa <- residuals(reg1)
> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 0.69454, df = 2, p-value = 0.7066
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.97679, p-value = 0.8862
> # ASUMSI HOMOSKEDASTISITAS
> library(lmtest)
> bptest(reg1)
studentized Breusch-Pagan test
data: reg1
BP = 1.6658, df = 2, p-value = 0.4348
> #ASUMSI NONAUTOKORELASI
> dwtest(reg1)
Durbin-Watson test
data: reg1
DW = 1.6277, p-value = 0.1937
alternative hypothesis: true autocorrelation is greater than 0
> # ASUMSI NONMULTIKOLINIERITAS
> library(car)
> vif(reg1)
age experience
1.608825 1.608825 3 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
- Mean
Rata-rata dari suatu sampel bisa didapatkan dengan menjumlahkan seluruh nilai kemudian dibagi dengan jumlah sampel tersebut.
Didapatkan mean dari variabel pendapatan sebesar 40735.5
Didapatkan mean dari variabel usia sebesar 39.65
Didapatkan mean dari variabel pengalaman sebesar 6.2
- Median
Median merupakan nilai tengah dari data yang sudah diurutkan.
Didapatkan nilai tengah dari variabel pendapatan yaitu 40190
Didapatkan nilai tengah dari variabel usia yaitu 40
Didapatkan nilai tengah dari variabel pengalaman adalah 5
- Varians
Varians adalah rata-rata dari jumlah kuadrat data.
Didapatkan nilai varians dari variabel pendapatan yaitu 71230184
Didapatkan nilai varians dari variabel usia yaitu 100.5553
Didapatkan nilai varians dari variabel X2 yaitu 17.01053
- Standart Deviasi
Standart deviasi atau biasa disebut simpangan baku merupakan akar kuadrat dari varians.
Didapatkan nilai Standart Deviasi dari variabel pendapatan yaitu 8439.798
Didapatkan nilai Standart Deviasi dari variabel usia yaitu 10.02772
Didapatkan nilai Standart Deviasi dari variabel pengalaman yaitu 4.124382
3.2 Analisis Regresi Berganda
3.2.1 Penghitungan Manual
- Membentuk pendugaan koefisien
> beta_duga <- solve(t(X)%*%X)%*%(t(X)%*%Y)
> beta_duga
[,1]
X0 31261.68985
X1 -99.19536
X2 2162.40419Diperoleh model regresi dari data yang dianalisis sebagai berikut:
\[ \hat{Y} = 31261.67-99.20X_1+2162.40X_2 \]
\(b_0\)=3121.67 Jika variabel usia dan pengalaman kerja bernilai konstan (tetap) maka pendapatan sebesar $3121.67
\(b_1\) = -99.20$ Setiap bertambah satu tahun usia sampel maka akan mengakibatkan penurunan pendapatan sebesar $99.20
\(b_2\) =2162.40$ Setiap bertambah satu pengamalan kerja sampel maka akan mengakibatkan kenaikan pendapatan sebesar $2162
- Uji F
> #membentuk tabel anova
> SK <- c("Regresi", "Galat", "Total")
> anova <- data.frame(SK, JK, db, KT)
> names(anova) <- c("SK", "JK", "db", "KT")
> anova
SK JK db KT
1 Regresi 1322700815 2 661350408
2 Galat 30672680 17 1804275
3 Total 1353373495 19 71230184\(F_{hitung}\)=366.5463
\(F_{hitung}\)> \(F_{tabel}\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia dan banyaknya pengalaman kerja mempengaruhi pendapatan secara bersamaan.
> #menghitung pvalue
> pvalue_f <- pf(SU_F, anova$db[1], anova$db[2], lower.tail=FALSE)
> pvalue_f
[1] 1.047947e-14\[P-value=1.04797\times10^{-14}\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia dan banyaknya pengalaman kerja mempengaruhi pendapatan secara bersamaan.
- Uji T
> #uji T
> var_cov <- anova$KT[2]*solve(t(X)%*%X)
> sd <- rep(0,k)
> for (i in 1:k){
+ sd[i] <- sqrt(var_cov[i,i])
+ }
> sd
[1] 1306.43659 38.97863 94.76983\(\beta_1\) \(t_{hitung}\)=-2.544865 \(t_{hitung}\)> \(t_{tabel}\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia mempengaruhi pendapatan secara parsial.
\(\beta_2\) \(t_{hitung}\)=22.81743 \(t_{hitung}\)> \(t_{tabel}\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabelpengalaman mempengaruhi pendapatan secara parsial.
> #menghitung pvalue
> pvalue_t <- 2*pt(abs(thit), anova$db[2], lower.tail=FALSE)
> pvalue_t
X0 X1 X2
[1,] 1.567157e-14 0.02092977 3.437448e-14\(\beta_1\) \[P-value=0.02092977\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia mempengaruhi pendapatan secara parsial.
\(\beta_2\) \[P-value=3.437448\times10^{-14}\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel pengalaman kerja mempengaruhi pendapatan secara parsial.
3.2.2 Penghitungan dengan fungsi lm
> #Analisis regresi
> reg1<-lm(income~age+experience,data)
> summary(reg1)
Call:
lm(formula = income ~ age + experience, data = data)
Residuals:
Min 1Q Median 3Q Max
-2707.43 -584.21 25.85 925.75 2043.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31261.69 1306.44 23.929 1.57e-14 ***
age -99.20 38.98 -2.545 0.0209 *
experience 2162.40 94.77 22.817 3.44e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1343 on 17 degrees of freedom
Multiple R-squared: 0.9773, Adjusted R-squared: 0.9747
F-statistic: 366.5 on 2 and 17 DF, p-value: 1.048e-14- Uji F
\[P-value=1.048\times10^{-14}\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia dan banyaknya pengalaman kerja mempengaruhi pendapatan secara bersamaan. - Uji T
\(\beta_1\)
\[P-value=0.0209\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel usia mempengaruhi pendapatan secara parsial.
\(\beta_2\)
\[P-value=3.44\times10^{-14}\]
\(P-value\)< \(\alpha\), maka tolak \(H_0\) Sehingga dapat disimpulkan bahwa variabel pengalaman kerja mempengaruhi pendapatan secara parsial.
3.3 Uji Asumsi
3.3.1 Asumsi Normalitas Galat
Hipotesis
\(H_0\) :Galat berdistribusi normal
\(H_1\) :Galat tidak berdistribusi normal
> #Menentukan nilai galat
> sisa <- residuals(reg1)
> sisa
1 2 3 4 5 6
-494.210159 896.958234 655.683469 1230.540561 -790.331489 290.443931
7 8 9 10 11 12
2043.759139 1012.140108 1846.517338 457.695473 -2707.428738 48.854125
13 14 15 16 17 18
2.838381 -52.343493 -1545.944517 -1269.105432 1330.769500 -272.600870
19 20
-2168.731941 -515.503621 Uji Jarque Bera
> #Uji Jarque Bera
> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 0.69454, df = 2, p-value = 0.7066\[ p-value = 0.7066 \]
Karena \(p-value\) > \(\alpha\) (0.05), maka diperoleh keputusan untuk menerima \(H_0\). Sehingga dapat disimpulkan bahwa residual berdistribusi normal atau memenuhi asumsi normalitas.
Uji Shapiro Wilk
> #Uji Shapiro Wilk
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.97679, p-value = 0.8862\[ p-value = 0.8862 \]
Karena \(p-value\) > \(\alpha\) (0.05), maka diperoleh keputusan untuk menerima \(H_0\). Sehingga dapat disimpulkan bahwa residual berdistribusi normal atau memenuhi asumsi normalitas.3.3.2 Asumsi Homoskedastisitas
Hipotesis
\(H_0\) :Homogenitas galat terpenuhi
\(H_1\) :Homogenitas galat tidak terpenuhi
\[ p-value = 0.4348 \] Karena \(p-value\) > \(\alpha\) (0.05), maka diperoleh keputusan untuk menerima \(H_0\). Sehingga dapat disimpulkan bahwa homogenitas galat terpenuhi.
3.3.3 Asumsi Non Autokorelasi
Hipotesis
\(H_0\) :Tidak terjadi kasus autokorelasi
\(H_1\) :Terjadi autokorelasi
> dwtest(reg1)
Durbin-Watson test
data: reg1
DW = 1.6277, p-value = 0.1937
alternative hypothesis: true autocorrelation is greater than 0\[ p-value = 0.1937 \] Karena \(p-value\) > \(\alpha\) (0.05), maka diperoleh keputusan untuk menerima \(H_0\). Sehingga dapat disimpulkan bahwa tidak terjadi kasus autokorelasi.
3.3.4 Asumsi Multikolinearitas
Hipotesis:
\(H_0\) :Tidak terjadi multikolinearitas
\(H_1\) :Terjadi multikolinearitas
\[ VIF(X_1) = 1.608825,VIF(X_2)=1.608825 \] Karena nilai kedua VIF <10, maka tolak \(H_0\) Jadi dapat disimpulkan bahwa tidak terjadi multikolinearitss atau asumsi multikolinearitas terpenuhi.