Dosen Pengempu : Prof. Dr. Suhartono, M.Kom

UIN Maulana Malik Ibrahim Malang - Teknik Informatika

Analisis Regresi Linear Algebra

Analisis regresi linier berganda adalah hubungan secara linear antara dua atau lebih variabel independen (xurel x2 , …., xn) dengan variabel dependen (Y). maka data yang digunakan biasanya berskala interval atau rasio.

Menganalisa dengan Menggunakan R

Menampilkan Data

Jika data yang diteliti relative sedikit, data bisa langsung diketik dengan catatan bahwa setiap variabel harus memiliki jumlah data yang sama.

Contoh Dataset Regresi Sederhana

y1 <- c (14, 15, 16, 17, 18, 19, 20)
x <- c (3, 4, 5, 6, 7, 8, 9)

Contoh Dataset Regresi Ganda

y <- c (20, 28, 29, 34, 27, 33, 21, 37, 25, 30, 24, 31)
X1 <- c (43, 45, 47, 58, 54, 43, 60, 61, 53, 51, 32, 55 )
X2 <- c (8, 6, 12, 9, 10, 9, 8, 12, 18, 9, 1, 15)

Mengecek Jumlah Data

length (y1)
## [1] 7
length (x)
## [1] 7
length (y)
## [1] 12
length (X1)
## [1] 12
length (X2)
## [1] 12

Analisis Regresi Linear Sederhana

regresisederhana <- lm(y1 ~ x)
  summary(regresisederhana)
## Warning in summary.lm(regresisederhana): essentially perfect fit: summary may be
## unreliable
## 
## Call:
## lm(formula = y1 ~ x)
## 
## Residuals:
##          1          2          3          4          5          6          7 
## -1.560e-15  1.423e-15  5.109e-16  2.248e-16 -6.131e-17 -3.474e-16 -1.894e-16 
## 
## Coefficients:
##              Estimate Std. Error   t value Pr(>|t|)    
## (Intercept) 1.100e+01  1.187e-15 9.268e+15   <2e-16 ***
## x           1.000e+00  1.877e-16 5.329e+15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.93e-16 on 5 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 2.84e+31 on 1 and 5 DF,  p-value: < 2.2e-16

Analisis Regresi Linear Ganda

regresiganda <- lm(y ~  X1 + X2)
   summary(regresiganda)
## 
## Call:
## lm(formula = y ~ X1 + X2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.896 -2.638  1.096  2.347  6.519 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.98794    9.96160   1.806    0.104
## X1           0.18514    0.23607   0.784    0.453
## X2           0.09992    0.46476   0.215    0.835
## 
## Residual standard error: 5.336 on 9 degrees of freedom
## Multiple R-squared:  0.1293, Adjusted R-squared:  -0.06423 
## F-statistic: 0.668 on 2 and 9 DF,  p-value: 0.5364
   anova(regresiganda)
## Analysis of Variance Table
## 
## Response: y
##           Df  Sum Sq Mean Sq F value Pr(>F)
## X1         1  36.720  36.720  1.2899 0.2854
## X2         1   1.316   1.316  0.0462 0.8346
## Residuals  9 256.214  28.468

Contoh Model Dataset Regresi Linear Ganda

Kita akan meneliti variasi berat badan (y) dikaitkan dengan tinggi badan (x1) dan umur (x2) untuk anak-anak yang memiliki masalah atau kekurangan gizi.

  • Peubah terikat : berat badan

  • Peubah Bebas : tinggi badan dan umur

  • Andaikan bahwa sebuah sampel acak terdiri dari 12 anak yang mengunjungi sebuah klinik

  • Data berat (kg), tinggi (cm), dan umur (tahun) diperoleh untuk setiap anak

Interpretasi Hasil Analisis Regresi Ganda

Taksiran parameter model dapat diperoleh dari “Estimate”

yprediksi=b0+b1x1+b2x2𝑦prediksi=𝑏0+𝑏1𝑥1+𝑏2𝑥2

dimana b0 = 19.608816 , b1 = -0.009868 dan b2 = 1.069854,Sehingga Persamaan Regresi

yprediksi = 56.2721 -0.009868 x1 + 1.069854 x2, Kita menggunakan taraf kesignifikanan alpha (aa) = 5%.

Kesignifikanan Model : Uji F

Nilai F -statistic = 2.336 dengan nilai p-value = 0.1523 memberikan informasi tentang kesignifikanan model. Karena nilai p-value < aa, ini berarti model signifikan secara statistis.

Kriteria Kesimpulan

Pengujian signifikan : p-value < aa Pengujian tidak signifikan : p-value >= aa

Jadi, penaksiran, peramalan, atau inferensi yang lain dapat dilakukan dengan menggunakan model regresi tersebut karena model signifikan.

Daya ramal model:

R2(Koefisien Determinasi) Multiple R-squared = 0.3417 Artinya model mempunyai daya ramal 34.17% (variasi Y dapat dijelaskan oleh model).

Kemampuan variable independen dalam menjelaskan varians dari variable dependen sebesar 34.17%, sisanya 66% varians variable dependen dijelaskan oleh faktor lain yang tidak terdapat dalam model regresi tersebut.

  • Nilai R-squared terletak antara 0 dan 1.

  • Adjusted R-squared = 0.1955 , artinya tinggi dan umur secara bersama sama dapat menjelaskan sekitar 19,55% variasi berat (Y).

R-squared

Nilai R-squared akan meningkat jika ada penambahan variable independen dalam model. akibatnya, hasil bisa bias jika peneliti menambahkan sembarang peubah independent.

Adjusted R square
  • Interpretasinya sama dengan R-squared.

  • Nilainya dapat naik turun tergantung dari hubungan antara variable independen tambahan dengan variable independennya.

  • Umumnya peneliti menyarankan menggunakan Adjusted R square.

  • Jika ingin membandingkan model gunakan Adjusted R square.

Kesignifikanan masing masing peubah bebas

Hanya peubah x2 yang signifikan karena nilai t value=2.116 dengan nilai p=0.0635 < alpha koefisien regresi untuk x2, yaitu b2=1.069854 dapat diinterpretasi bahwa

Seiring dengan bertambahnya umur (x2) anak-anak setiap tahun, maka berat (y) dan tinggi (X1) dapat bertambah sebesar 1.069854 kg/cm juga tiap tahunnya.

Referensi