Regresi Linear Sederhana dan Linear Ganda Pada RStudio
3/19/2022
Dosen Pengampu : Prof. Dr. Suhartono, M.Kom
Mata Kuliah : Linier Algebra
Prodi : Teknik Informatika
Lembaga : Universitas Islam Negeri Maulana Malik Ibrahim Malang
Regresi Linear
Regresi linier adalah model paling sederhana yang paling sering dijelaskan dalam statistik. Modelnya sangat sederhana dimana kita dapat mencoba membangun model dengan pendekatan linier menggunakan prinsip meminimalkan jumlah sisa kuadrat dalam data. Model yang terbentuk menghasilkan dua nilai: nilai konstan (y-intercept) dan slope kurva.
Sederhana
Regresi linier sederhana adalah suatu metode yang digunakan untuk melihat hubungan antar satu variabel independent (bebas) dan mempunyai hubungan garis lurus dengan variabel dependennya (terikat). Berfungsi untuk menguji sejauh mana hubungan sebab akibat antara Variabel Faktor Penyebab (X) terhadap Variabel Akibatnya. Faktor Penyebab pada umumnya dilambangkan dengan X atau disebut juga dengan Predictor sedangkan Variabel Akibat dilambangkan dengan Y atau disebut juga dengan Response. Regresi Linear Sederhana atau sering disingkat dengan SLR (Simple Linear Regression) juga merupakan salah satu Metode Statistik yang dipergunakan dalam produksi untuk melakukan peramalan ataupun prediksi tentang karakteristik kualitas maupun Kuantitas.
Berganda
Regresi Linear Berganda adalah model regresi linear dengan melibatkan lebih dari satu variable bebas atau predictor. Dalam bahasa inggris, istilah ini disebut dengan multiple linear regression.
Analisis Regresi Pada Rstudio
Analisis regresi digunakan untuk mengukur seberapa besar pengaruh antara variabel bebas dan variabel terikat. Apabila hanya terdapat satu variabel bebas dan satu variabel terikat, maka regresi tersebut dinamakan regresi linear sederhana (Juliandi, Irfan, & Manurung, 2014). Sebaliknya, apabila terdapat lebih dari satu variabel bebas atau variabel terikat, maka disebut regresi linear berganda. Regresi linear berganda merupakan model regresi yang melibatkan lebih dari satu variabel independen. Analisis regresi linear berganda dilakukan untuk mengetahui arah dan seberapa besar pengaruh variabel independen terhadap variabel dependen (Ghozali, 2018).
Tahapannya adalah sebagai berikut :
Menampilkan Data
Jika data yang diteliti relative sedikit, data bisa langsung diketik dengan catatan bahwa setiap variabel harus memiliki jumlah data yang sama. Contoh Dataset Regresi Linear Sederhana
<- c (11, 12, 13, 14, 15, 16, 17, 18)
y1 <- c (2, 3, 4, 5, 6, 7, 8, 9)
x
##### Contoh Dataset Regresi Linear Ganda
<- c (25, 26, 39, 24, 37, 33, 22, 27, 38, 36, 25, 33)
y <- c (47, 45, 49, 58, 42, 63, 47, 61, 53, 52, 42, 67 )
X1 <- c (7, 6, 11, 9, 14, 8, 8, 12, 17, 9, 11, 15)
X2
#### Mengecek jumlah data
length(y1)
## [1] 8
length(x)
## [1] 8
length(y)
## [1] 12
length(X1)
## [1] 12
length(X2)
## [1] 12
Analisis Regresi Linear Sederhana
<- lm(y1 ~ x)
regresisederhana summary(regresisederhana)
## Warning in summary.lm(regresisederhana): essentially perfect fit: summary may be
## unreliable
##
## Call:
## lm(formula = y1 ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.993e-15 -5.033e-16 2.402e-17 9.261e-16 1.905e-15
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.000e+00 1.485e-15 6.062e+15 <2e-16 ***
## x 1.000e+00 2.492e-16 4.013e+15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.615e-15 on 6 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 1.611e+31 on 1 and 6 DF, p-value: < 2.2e-16
Analisis Regresi Linear Ganda
<- lm(y ~ X1 + X2)
regresiganda summary(regresiganda)
##
## Call:
## lm(formula = y ~ X1 + X2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.9628 -4.7102 -0.6089 3.4843 8.1063
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.608816 10.941615 1.792 0.1067
## X1 -0.009868 0.205059 -0.048 0.9627
## X2 1.069854 0.505631 2.116 0.0635 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.548 on 9 degrees of freedom
## Multiple R-squared: 0.3417, Adjusted R-squared: 0.1955
## F-statistic: 2.336 on 2 and 9 DF, p-value: 0.1523
anova(regresiganda)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 6.022 6.022 0.1956 0.66873
## X2 1 137.825 137.825 4.4769 0.06346 .
## Residuals 9 277.070 30.786
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Contoh Model Dataset Regresi Linear Ganda Kita akan meneliti variasi berat badan (y) dikaitkan dengan tinggi badan (X1) dan umur (X2) untuk anak-anak yang memiliki masalah atau kekurangan gizi.
Peubah terikat: berat badan,
Peubah Bebas : tinggi badan dan umur
Andaikan bahwa sebuah sampel acak terdiri dari 12 anak yang mengunjungi sebuah klinik.
Data berat (kg), tinggi (cm), dan umur (tahun) diperoleh untuk setiap anak .
Interpretasi Hasil Analisis Regresi Ganda
Taksiran parameter model dapat diperoleh dari “Estimate”
$yprediksi=$ $b0+b1x1+b2x2$
dimana b0 = 19.608816 , b1 = -0.009868 dan b2 = 1.069854,Sehingga Persamaan Regresi yprediksi = 56.2721 -0.009868 x1 + 1.069854 x2, Kita menggunakan taraf kesignifikanan alpha (a) = 5%
Kesignifikanan Model: Uji F
Nilai F -statistic = 2.336 dengan nilai p-value = 0.1523 memberikan informasi tentang kesignifikanan model. Karena nilai p-value < a, ini berarti model signifikan secara statistis.
Kriteria kesimpulan:
Pengujian signifikan : p-value < a Pengujian tidak signifikan : p-value >= a Jadi, penaksiran, peramalan, atau inferensi yang lain dapat dilakukan dengan menggunakan model regresi tersebut karena model signifikan.
Daya ramal model:
R2(Koefisien Determinasi) Multiple R-squared = 0.3417 Artinya model mempunyai daya ramal 34.17% (variasi Y dapat dijelaskan oleh model). Kemampuan variable independen dalam menjelaskan varians dari variable dependen sebesar 34.17%, sisanya 66% varians variable dependen dijelaskan oleh faktor lain yang tidak terdapat dalam model regresi tersebut.
+ Nilai R-squared terletak antara 0 dan 1.
+ Adjusted R-squared = 0.1955 , artinya tinggi dan umur secara bersama sama dapat menjelaskan sekitar 19,55% variasi berat (Y).
R-squared
Nilai R-squared akan meningkat jika ada penambahan variable independen dalam model. akibatnya, hasil bisa bias jika peneliti menambahkan sembarang peubah independent.
Adjusted R square
Interpretasinya sama dengan R-squared.
nilainya dapat naik turun tergantung dari hubungan antara variable independen tambahan dengan variable independennya.
Umumnya peneliti menyarankan menggunakan Adjusted R square.
Jika ingin membandingkan model gunakan Adjusted R square.
Kesignifikanan masing masing peubah bebas
Hanya peubah X2 yang signifikan karena nilai t value=2.116 dengan nilai p=0.0635 < alpha koefisien regresi untuk X2, yaitu b2=1.069854 dapat diinterpretasi bahwa: Seiring dengan bertambahnya umur (X2) anak-anak setiap tahun, maka berat (y) dan tinggi (X1) dapat bertambah sebesar 1.069854 kg/cm juga tiap tahunnya.