Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
1 PENDAHULUAN
1.1 Latar Belakang
Statistika merupakan ilmu yang mempelajari tentang data, mulai dari pengumpulan data dan penyusunan data, hingga kemudian data dianalisis sehingga menghasilkan suatu informasi yang berguna. Statistika seperti ilmu banyak ilmu lainnya terus berkembang sepanjang waktu dan sepanjang zaman, perkembangan ilmu statistika dapat dikatakan berkembang bersamaan dengan perkembangan sejarah manusia. Pada zaman kini Ilmu statistika mulai mengalami perkembangan pesat dengan ditunjukkannya pengaplikasian statistika dalam banyak bidang kehidupan sebut saja sosial, kesehatan, pemerintahan, ekonomi, dan banyak bidang lagi.
Dewasa ini data merupakan bukti ilmiah yang dapat dipercaya dikarenakan dalam data itu terkandung informasi dan fakta mengenai suatu kondisi, sebab itu banyak peneliti menggunakan data untuk menjawab permasalahan dalam masalah yang ditelitinya. Peranan statistika begitu penting dalam mengolah data-data tersebut hingga dapat diperoleh hasil yang sesuai dengan tujuan penelitian serta akan menghasilkan informasi yang sahih apabila memperhatikan tata cara analisis data yang digunakan.
Sering kali peneliti ingin mengetahui juga memprediksi mengapa suatu kejadian bisa terjadi dan faktor apa saja yang mempengaruhi sehingga kejadian tersebut dapat terjadi sedemikian rupa. Bila hubungan antara faktor penyebab kejadian dan kejadian ini dapat dinyatakan dalam suatu persamaan matematik, maka peneliti dapat menggunakannya untuk keperluan prediksi. Persamaan matematik demikia yang memungkinkan kita untuk meramal/memprediksi suatu peubah tak bebas(kejadian) dari nilai-nilai satu atau lebih peubah bebas(faktor penyebab kejadian) disebut persamaan regresi(Walpole,1995), dengan metodenya yaitu analisis regresi.
Ketika melakukan analisis data, seringkali peneliti menggunakan suatu alat bantu berupa software-software statistika. penggunan software statistik memudahkan peneliti ataupun pengguna statistik dalam menganalisis data dikarenakan banyak dan lengkapnya metode analisis yang dapat dilakukan dalam software, mudahnya penggunaan software, dan hasil analisis yang cepat terproses karena segala perhitungan dilakukan dengan komputer.
Dewasa ini, banyak sekali software-software statistika untuk melakukan berbagai macam metode analisis dan pengolahan data, diantaranya adalah R-studio. R-studio merupakan software open-source gratis yang dapat diakses oleh siapapun dan dapat dikembangkan oleh siapapun. R-studio mempunyai cukup program untuk mengolah data menggunakan berbagai macam metode analisis, tidak terkecuali metode analisis regresi. Namun peneliti perlu memahami dasar-dasar analisis regresi serta pemahaman akan penggunaan software statistik sehingga analisis yang dilakukan sesuai. Oleh karena itu, akan dilakukan tata cara melakukan analisis regresi linier berganda dengan asumsi dan juga penanganannya menggunakan software R-Studio.
2 TINJAUAN PUSTAKA
2.1 Analisis Regresi Linear
Analisis regresi adalah suatu teknik statistika untuk pemeriksaan dan pemodelan hubungan antar variabel(Effendi,2016). Variabel yang akan dimodelkan dalam analisis regresi dapat diklasifikasikan menjadi dua variabel :
Variabel Respon atau variabel dependent (Y) , merupakan variabel tidak bebas yang akan diamati berdasarkan pengaruh variabel lain.
Variabel prediktor atau variabel independent (X), merupakan variabel bebas yang nilainya telah diketahui dan akan diamati pengaruhnya terhadap variabel respon.
Tujuan dari analisis regresi adalah untuk meramalkan Y berdasarkan pengaruh X. Setelah memutuskan menggunakan analisis regresi, kita menghadapi masalah bagaimana memperoleh model matematik untuk menentukan dugaan bagi Y. Untuk ini akan digunakan prosedur Metode Kuadrat Terkecil (MKT) yaitu dengan meminimumkan jumlah kuadrat dari galat dan menurunkan persamaan normal yang disamadengankan dengan nol.
Secara umum regresi linear dimodelkan sebagai berikut :
\[ Y = \beta_{0} + \beta_{1}X_{1} + \varepsilon \]
Dengan metode MKT dari model umum regresi linear akan dapat dilakukan estimasi parameter untuk memperoleh model regresi linier yang akan digunakan dalam analisis. Dengan metode MKT akan diperoleh model pendugaan regresi yaitu :
\[ \hat{Y} = b_{0} + b_{1}x_{1} \]
keterangan
\(\hat{Y}\) = nilai pendugaan Y
\(b_{0}\) = penduga parameter \(\beta_{0}\)
\(b_{1}\) = penduga parameter \(\beta_{1}\)
2.2 Analisis Regresi Linear Berganda
Sama seperti dengan analisis regresi linear pada pembahasan barusan, regresi linear berganda merupakan model yang menjelaskan hubungan satu variabel respon (Y) dengan dua atau lebih variabel prediktor ( X1 , X2 , … , Xn ). Tujuan dari analisis regresi linear berganda adalah untuk mengestimasi nilai variabel respon (Y) apabila nilai variabel-variabel prediktor ( X1 , X2 , … , Xn ) diketahui.
Bentuk umum model regresi linear berganda dengan diketahui terdapat k variabel prediktor adalah :
\[ Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + ... + \beta_{k}X_{k} + \varepsilon \]
keterangan
Y = variabel respon
X1 , X2 , … , Xn = Variabel-variabel independen
β0,β1,β2,…,βn = Parameter-parameter populasi
Seperti pada analisis regresi linear sederhana, estimasi parameter pada regresi berganda dapat dilakukan dengan metode MKT untuk diperoleh model yang akan digunakan dalam analisis. MKT dalam model regresi linear berganda merupakan metode dengan memanfaatkan turunan parsial \(\Sigma\varepsilon_{i}^2\) yang diturunkan terhadap parameter-parameter yang ada. Estimasi parameter untuk model regresi linier berganda lebih banyak didekati dengan penerapan matriks yang dapat ditulis dengan rumus
\[ \beta = (X^TX)^{-1} (X^TY) \]
sehingga akan didapatkan persamaan berikut :
\[ y_i = b_0 +b_1x_1 +b_2x_2 +...+b_kx_k \]
2.3 Asumsi-Asumsi Klasik
Dalam analisis regresi linear baik sederhana maupun berganda terdapat beberapa asumsi yang harus terpenuhi untuk membuktikan bahwa model yang telah diperoleh dari hasil analisis merupakan model yang layak untuk dilakukan peramalan atau estimasi seperti halnya tujuan awal dilakukan analisis regresi. Asumsi-asumsi yang harus terpenuhi tersebut adalah sebagai berikut
2.3.1 Asumsi Normalitas Galat
Asumsi normalitas galat memyatakan bahwa galat dari suatu model regresi di dalam sampel berdistribusi normal. Dalam hal ini, normalitas galat berarti bahwa galat-galat berdistribusi secara simetris disekitar nol, dengan sebagian besar galat berada pada sekitar titik nol. Apabila asumsi galat tidak terpenuhi maka hasil analisis regresi dapat menjadi bias Untuk menguji normalitas dapat dilakukan dengan beberapa uji yaitu uji Kolmogorov-smirnov, uji Shapiro-Wilk atau uji Lilliefors.
2.3.2 Asumsi Non Multikolinieritas
Asumsi non multikolinieritas menyatakan bahwa tidak ada hubungan linier antara variabel prediktor. Multikolinieritas dapat terjadi jika ada korelasi tinggi antara variabel prediktor. Apabila asumsi ini tidak terpenuhi akan menyebabkan sulitnya menentukan signifikansi tiap variabel prediktor terhadap pengaruhnya terhadap variabel respon. Multikolinieritas dapat diketahui dengan menghitung nilai Variance Inflation Factor (VIF). korelasi yang tinggi antara variabel prediktor akan menyebabkan nilai VIF nya menjadi besar. Umumnya nilai VIF > 10 dapat digunakan sebagai bukti bahwa model memiliki multikolinieritas. \[ VIF_k = \frac{1}{1-R^2_k} \]
k = banyaknya variabel prediktor
2.3.3 Asumsi Homoskedatisitas
Asumsi homoskedatisitas menyatakan bahwa keadaan ragam galat pada model regresi homogen. Jika tidak terpenuhinya asumsi homoskedatisitas menandakan bahwa terdapat ketidaksamaan varian dari galat untuk semua pengamatan dari model regresi. Uji yang akan dilakukan untuk asumsi ini adalah uji Breusch Pagan Godfrey.
2.3.4 Asumsi linearitas
Asumsi linearitas menyatakan bahwa hubungan antara variabel prediktor (X) dan variabel respon (Y) merupakan hubungan linier. Bila asumsi tidak terpenuhi akan mengurangi validasi model regresi yang diperoleh. Uji yang akan digunakan untuk uji linearitas adalah uji reset.
2.3.5 Asumsi Autokorelasi
Uji Autokorelasi dilakukan untuk mengetahui adakah korelasi variabel yang ada di dalam model prediksi dengan perubahan waktu. Uji yang digunakan adalah uji durbin watson untuk menilai adanya autokorelasi pada residual. Uji durbin watson akan menghasilkan nilai Durbin Watson (DW) yang nantinya akan dibandingkan dengan dua nilai durbin Watson tabel, yaitu durbin Upper (DU) dan durbin Lower (DL).
2.4 Pengujian Parameter Regresi
2.4.1 Uji Simultan
Uji simultan atau uji F digunakan untuk menguji pengaruh secara bersama-sama seluruh variabel prediktor yang diuji terhadap variabel respons. Hipotesis yang digunakan adalah sebagai berikut:
\[ H_0 : \beta_1 = \beta_2 = ... = \beta_{k-1} = 0 \]
\[ VS \]
\[ H_1 : \beta_k tidak sama dengan 0 \]
2.4.2 Uji Parsial
Uji t digunakan untuk pengujian koefisien regresi secara parsial. Masing-masing variabel prediktor diuji untuk diketahui pengaruhnya terhadap variabel respons.
\[ H_0 : \beta_i = 0 \]
\[ VS \]
\[ H_1 : \beta_i tidak sama dengan 0 \]
2.5 Koefisien Determinasi ( \(R^2\) )
Koefisien Determinasi merupakan suatu besaran yang menjelaskan seberapa besar keragaman variabel respon (Y) dapat dijelaskan oleh variabel prediktor. Nilai koefisien determinasi dapat digunakan juga untuk menguji kebaikan model regresi yang dimiliki. Rumus koefisien determinasi ( \(R^2\) ) adalah :
\[ R^2 = 1 - \frac{SSE}{SST} \]
\[ R^2 = 1 - \frac{\Sigma{Y_i-\hat{Y}_i}}{\Sigma{Y_i-\bar{Y}}} \]
\[ 0 <= R^2 <= 1 \]
3 SOURCE CODE
3.2 Data
> library(readr)
> DataRpubs <- read_csv("C:/Users/brama/Downloads/multiple_linear_regression_dataset.csv")
X1 | X2 | Y |
25 | 1 | 30450 |
30 | 3 | 35670 |
47 | 2 | 31580 |
32 | 5 | 40130 |
43 | 10 | 47830 |
51 | 7 | 41630 |
28 | 5 | 41340 |
33 | 4 | 37650 |
37 | 5 | 40250 |
39 | 8 | 45150 |
29 | 1 | 27840 |
47 | 9 | 46110 |
54 | 5 | 36720 |
51 | 4 | 34800 |
44 | 12 | 51300 |
41 | 6 | 38900 |
58 | 17 | 63600 |
23 | 1 | 30870 |
44 | 9 | 44190 |
37 | 10 | 48700 |
Dimana
\(X_1\) : Umur (tahun)
\(X_2\) : Lama pengalaman kerja (tahun)
\(Y\) : Pendapatan ($)
Sumber : Data yang digunakan merupakan dataset dari website kaggle
3.3 Analisis Regresi Berganda
3.4 UJI ASUMSI
3.4.1 UJI NORMALITAS (Uji lilliefors)
3.4.2 Uji Non Multikolinieritas
3.4.3 Uji Homoskedatisitas (Uji Breusch Pagan)
3.4.4 Uji linearitas
3.5 Uji Signifikansi Parameter dan Koefisien Determinasi ( \(R^2\) )
> summary(regresi)
Call:
lm(formula = Y ~ X1 + X2)
Residuals:
Min 1Q Median 3Q Max
-2707.43 -584.21 25.85 925.75 2043.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31261.69 1306.44 23.929 1.57e-14 ***
X1 -99.20 38.98 -2.545 0.0209 *
X2 2162.40 94.77 22.817 3.44e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1343 on 17 degrees of freedom
Multiple R-squared: 0.9773, Adjusted R-squared: 0.9747
F-statistic: 366.5 on 2 and 17 DF, p-value: 1.048e-14
4 HASIL DAN PEMBAHASAN
4.1 Model Regresi
Berdasarkan hasil output diperoleh model regresi berganda adalah :\[ y = 31261.69 - 99.2x_1 + 2162.4x_2 \]
Interpretasi Model :
\(b_0\) bermakna jika variabel \(X_1\) (umur) dan \(X_2\) (pengalaman) bernilai nol atau tidak mengalami kenaikan nilai maka pendapatan seseorang akan sebesar $31261.69
\(b_1\) bermakna setiap kenaikan umur sebesar 1 tahun akan mengurangi pendapatan seseorang sebesar $99.2
\(b_2\) bermakna setiap kenaikan pengalaman kerja sebesar 1 tahun akan menambah pendapatan seseorang sebesar $2162.4
4.2 Pengujian Asumsi
4.2.1 Uji Normalitas
Hipotesis :
\(H_0\) : Galat berdistribusi normal
\(H_1\) : Galat tidak berdistribusi normal
Alpha = 0.05
Hasil pengujian :
\[ Pvalue = 0.9253 \]
Interpretasi : Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.9523, sehingga karena alpha (0,05) < Pvalue(0.9523) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan galat menyebar secara normal sehingga asumsi normalitas terpenuhi
4.2.2 Uji NonMultikolinieritas
NIlai VIF | |
---|---|
X1 | 1.608825 |
X2 | 1.608825 |
Interpretasi : Berdasarkan output diperoleh nilai VIF untuk kedua variabel prediktor bernilai > 10. Sehingga dapat disimpulkan bahwa tidak terjadi multikolinieritas atau asumsi terpenuhi.
4.2.3 Uji Homoskedatisitas
Hipotesis:
\(H_0\) : Tidak terjadi heteroskedatisitas
\(H_1\) : Terjadi heteroskedatisitas
Alpha = 0.05
Hasil Pengujian R-Studio:
\[ P_-value = 0.4348 \]
Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.4348, sehingga karena alpha (0,05) < Pvalue(0.4348) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan tidak terjadinya kasus heteroskedatisitas sehingga asumsi terpenuhi.
4.2.4 Uji Linieritas
Hipotesis:
\(H_0\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) memiliki hubungan non-linier terhadap variabel respon (Y)
\(H_1\) : Variabel-variabel prediktor ( \(X_1,X_2\) ) memiliki hubungan linier terhadap variabel respon (Y)
Alpha = 0.05
Hasil Pengujian R-Studio:
\[ P_-value = 0.007241\]
Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.007241, sehingga karena alpha (0,05) > Pvalue(0.007241) keputusan yang diterima adalah tolak \(H_0\) . Dapat disimpulkan bahwa Variabel-variabel prediktor ( \(X_1,X_2\) ) memiliki hubungan linier terhadap variabel respon (Y) atau asumsi terpenuhi.
4.2.5 Uji NonAutokorelasi
Hipotesis:
\(H_0\) : Tidak terjadi autokorelasi
\(H_1\) : Terjadi autokorelasi
Alpha = 0.05
Hasil Pengujian R-Studio:
\[ P_-value = 0.41\]
Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.41, sehingga karena alpha (0,05) < Pvalue(0.41) keputusan yang diterima adalah terima \(H_0\) . Dapat disimpulkan tidak terjadinya kasus autokorelasi atau asumsi terpenuhi.
4.3 Uji Signifikansi Parameter
4.3.1 Uji Simultan
Hipotesis:
\(H_0\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) tidak berpengaruh signifikan secara simultan terhadap variabel respon (Y)
\(H_1\) : Variabel-variabel prediktor ( \(X_1 , X_2\) ) berpengaruh signifikan secara simultan terhadap variabel respon (Y)
Alpha = 0.05
Hasil Pengujian R-Studio:
\[ P_-value = 1.048e-14\]
Interpretasi: Berdasarkan hasil pengujian dengan metode lilliefors diperoleh P-value sebesar 0.41, sehingga karena alpha (0,05) > Pvalue(1.048e-14) keputusan yang diterima adalah tolak \(H_0\) . Dengan demikian dapat disimpulkan minimal salah satu variabel prediktor ( \(X_1,X_2\) ) berpengaruh signifikan terhadap variabel respon (Y)
4.3.2 Uji Parsial
Hipotesis Uji parameter b1
\(H_0\) : Variabel \(X_1\) tidak berpegaruh signifikan terhadap variabel respon (Y)
\(H_1\) : Variabel \(X_1\) berpegaruh signifikan terhadap variabel respon (Y)
Hipotesis Uji parameter b2
\(H_0\) : Variabel \(X_2\) tidak berpegaruh signifikan terhadap variabel respon (Y)
\(H_1\) : Variabel \(X_2\) berpegaruh signifikan terhadap variabel respon (Y)
Alpha = 0.05
Estimate | Std. Error | t value | Pr(>|t|) | |
---|---|---|---|---|
(Intercept) | 31261.68985 | 1306.43659 | 23.928976 | 0.0000000 |
X1 | -99.19536 | 38.97863 | -2.544865 | 0.0209298 |
X2 | 2162.40419 | 94.76983 | 22.817433 | 0.0000000 |
Interpretasi :
Variabel \(X_1\)
Berdasarkan hasil output R-studio, diperoleh nilai Pvalue untuk variabel \(X_1\) sebesar 0.0209298 dimana pvalue < alpha, sehingga keputusan yang diterima adalah tolak \(H_0\) . Karena itu, dapat disimpulkan dengan tingkat keyakinan 95% variabel \(X_1\) atau umur seseorang berpengaruh signifikan terhadap pendapatannya.
Variabel \(X_2\)
Berdasarkan hasil output R-studio, diperoleh nilai Pvalue untuk variabel \(X_2\) mendekati 0 dimana pvalue < alpha, sehingga keputusan yang diterima adalah tolak \(H_0\) . Karena itu, dapat disimpulkan dengan tingkat keyakinan 95% variabel \(X_2\) atau lama pengalaman kerja seseorang berpengaruh signifikan terhadap pendapatannya.
Koefisien Determinasi ( \(R^2\) )
Dari hasil pengujian R studio diperoleh output nilai R square sebesar 0.977 , yang dapat disimpulkan variabel umur dan lama pengalaman kerja dapat menjelaskan ~ 97.7% keragaman pendapatan (Y) sedangkan sekitar 2.3% sisanya dijelaskan oleh variabel yang tidak termasuk dalam penelitian / analisis.
5 KESIMPULAN
Berdasarkan hasil pengujian regresi linear berganda dan uji asumsi klasik menggunakan data pengaruh umur dan lama pengalaman kerja terhadap pendapatan, dapat disimpulkan analisis regersi mampu menjelaskan pengaruh variabel prediktor (umur dan lama pengalaman kerja) terhadap pendapatan seseorang. Hal ini dapat dilihat dari nilai koefisien determinasi yang sangat besar hampir mendekati 1, selain dari nilai koefisen determinasi uji signifikansi parameter menunjukkan kalau seluruh variabel prediktor ( \(X_1 , X_2\) ) berpengaruh signifikan terhadap variabel responnya(Y)
Asumsi-asumsi klasik yang telah diujikan dengan R-studio memberikan hasil yang baik dimana semua uji asumsi terpenuhi yang menandakan model baik secara statistik, model tidak bias, ragam homogen dan menyebar normal, dan terbukti bahwa hubungan antar variabel adalah linier.
Namun, perlu dipertimbangkan bahwa data yang digunakan pada analisis regresi ini, merupakan dataset kaggle yang kemungkinan bukan data asli / data bangkitan. Semoga laman rpubs ini dapat membantu siapapun yang membacanya dalam menjalankan analisis regresi dengan R-studio
6 DAFTAR PUSTAKA
Effendi, Achmad , dkk. (2020). Analisis Regresi : Teori dan Aplikasi dengan R. Malang: UB Press.
Walpole, Ronald E.. (1995). Introduction to Statistics \(3^{rd}\) edition (Bambang Sumantri, penerjemah) .. PT Gramedia Pustaka Utama.