Prodi : Teknik Informatika

Lembaga : UIN Maulana Malik Ibrahim Malang

Menganalisis dengan R

Menampilkan Data

Jika data yang diteliti relative sedikit, data bisa langsung diketik dengan catatan bahwa setiap variabel harus memiliki jumlah data yang sama.

Contoh Dataset Regresi Linear Sederhana

y1 <- c (11, 12, 13, 14, 15, 16, 17, 18)
x <- c (2, 3, 4, 5, 6, 7, 8, 9)

Contoh Dataset Regresi Linear Ganda

y <- c (25, 26, 39, 24, 37, 33, 22, 27, 38, 36, 25, 33)
X1 <- c (47, 45, 49, 58, 42, 63, 47, 61, 53, 52, 42, 67 )
X2 <- c (7, 6, 11, 9, 14, 8, 8, 12, 17, 9, 11, 15)

Mengecek jumlah data

length (y1)
## [1] 8
length (x)
## [1] 8
length (y)
## [1] 12
length (X1)
## [1] 12
length (X2)
## [1] 12

Analisis Regresi Linear Sederhana

regresisederhana <- lm(y1 ~ x)
  summary(regresisederhana)
## Warning in summary.lm(regresisederhana): essentially perfect fit: summary may be
## unreliable
## 
## Call:
## lm(formula = y1 ~ x)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -2.993e-15 -5.033e-16  2.402e-17  9.261e-16  1.905e-15 
## 
## Coefficients:
##              Estimate Std. Error   t value Pr(>|t|)    
## (Intercept) 9.000e+00  1.485e-15 6.062e+15   <2e-16 ***
## x           1.000e+00  2.492e-16 4.013e+15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.615e-15 on 6 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 1.611e+31 on 1 and 6 DF,  p-value: < 2.2e-16

Analisis Regresi Linear Ganda

regresiganda <- lm(y ~  X1 + X2)
   summary(regresiganda)
## 
## Call:
## lm(formula = y ~ X1 + X2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.9628 -4.7102 -0.6089  3.4843  8.1063 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 19.608816  10.941615   1.792   0.1067  
## X1          -0.009868   0.205059  -0.048   0.9627  
## X2           1.069854   0.505631   2.116   0.0635 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.548 on 9 degrees of freedom
## Multiple R-squared:  0.3417, Adjusted R-squared:  0.1955 
## F-statistic: 2.336 on 2 and 9 DF,  p-value: 0.1523
   anova(regresiganda)
## Analysis of Variance Table
## 
## Response: y
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## X1         1   6.022   6.022  0.1956 0.66873  
## X2         1 137.825 137.825  4.4769 0.06346 .
## Residuals  9 277.070  30.786                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Contoh Model Dataset Regresi Linear Ganda

Kita akan meneliti variasi berat badan (y) dikaitkan dengan tinggi badan (X1) dan umur (X2) untuk anak-anak yang memiliki masalah atau kekurangan gizi.

  • Peubah terikat: berat badan,

  • Peubah Bebas : tinggi badan dan umur

  • Andaikan bahwa sebuah sampel acak terdiri dari 12 anak yang mengunjungi sebuah klinik.

  • Data berat (kg), tinggi (cm), dan umur (tahun) diperoleh untuk setiap anak .

Interpretasi Hasil Analisis Regresi Ganda

Taksiran parameter model dapat diperoleh dari “Estimate”

\[ 𝑦prediksi = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 \] dimana b0 = 19.608816 , b1 = -0.009868 dan b2 = 1.069854,Sehingga Persamaan Regresi

yprediksi = 56.2721 -0.009868 x1 + 1.069854 x2, Kita menggunakan taraf kesignifikanan alpha (\(a\)) = 5%.

Kesignifikanan Model: Uji F

Nilai F -statistic = 2.336 dengan nilai p-value = 0.1523 memberikan informasi tentang kesignifikanan model. Karena nilai p-value < \(a\), ini berarti model signifikan secara statistis.

Kriteria kesimpulan:

Pengujian signifikan : p-value < \(a\) Pengujian tidak signifikan : p-value >= \(a\)

Jadi, penaksiran, peramalan, atau inferensi yang lain dapat dilakukan dengan menggunakan model regresi tersebut karena model signifikan

Daya ramal model:

R2(Koefisien Determinasi) Multiple R-squared = 0.3417 Artinya model mempunyai daya ramal 34.17% (variasi Y dapat dijelaskan oleh model).

Kemampuan variable independen dalam menjelaskan varians dari variable dependen sebesar 34.17%,

sisanya 66% varians variable dependen dijelaskan oleh faktor lain yang tidak terdapat dalam model regresi tersebut.

  • Nilai R-squared terletak antara 0 dan 1.

  • Adjusted R-squared = 0.1955 , artinya tinggi dan umur secara bersama sama dapat menjelaskan sekitar 19,55% variasi berat (Y).

R-squared

  • Nilai R-squared akan meningkat jika ada penambahan variable independen dalam model. akibatnya, hasil bisa bias jika peneliti menambahkan sembarang peubah independent.

Adjusted R square

  • Interpretasinya sama dengan R-squared.

  • nilainya dapat naik turun tergantung dari hubungan antara variable independen tambahan dengan variable independennya.

  • Umumnya peneliti menyarankan menggunakan Adjusted R square.

  • Jika ingin membandingkan model gunakan Adjusted R square.

Kesignifikanan masing masing peubah bebas

Hanya peubah X2 yang signifikan karena nilai t value=2.116 dengan nilai p=0.0635 < alpha koefisien regresi untuk X2, yaitu b2=1.069854 dapat diinterpretasi bahwa:

Seiring dengan bertambahnya umur (X2) anak-anak setiap tahun, maka berat (y) dan tinggi (X1) dapat bertambah sebesar 1.069854 kg/cm juga tiap tahunnya.