Pengertian
Analisis regresi merupakan suatu metode atau teknik analisis hipotesis penelitian untuk menguji ada tidaknya perngaruh antara variabel satu dengan variabel lain, yang dinyatakan dalam bentuk persamaan matematik (regresi).
Terdapat dua jenis dasar regresi yaitu, regresi linear sederhana dan regresi linear berganda. Kalau regresi linear sederhana menggunakan satu variabel independen untuk menjelaskan atau memprediksi hasil dari variabel dependen Y.
Sedangkan regresi linear multiples atau berganda berfungsi untuk mencari pengaruh dari dua atau lebih variabel independent (variabel bebas atau X) terhadap variabel dependent (variabel terikat Y).
Menganalisis dengan R
Menampilkan Data
Jika data yang diteliti relative sedikit, data bisa langsung diketik dengan catatan bahwa setiap variabel harus memiliki jumlah data yang sama.
Contoh Dataset Regresi Linear Sederhana
y1 <- c (11, 13, 53, 31,5, 16, 17, 18, 8)
x <- c (2, 13, 6, 1, 62, 70, 8, 9, 9)
Contoh Dataset Regresi Linear Ganda
y <- c (35, 26, 39, 24, 37, 33, 21, 27, 38, 36, 25, 33)
X1 <- c (47, 45, 49, 58, 42, 63, 47, 61, 53, 52, 42, 37 )
X2 <- c (7, 6, 11, 9, 14, 8, 18, 12, 17, 9, 11, 45)
Menampilkan panjang variabel
length (y1)
## [1] 9
length(x)
## [1] 9
length(y)
## [1] 12
length(X1)
## [1] 12
length(X2)
## [1] 12
Menganalisis Regresi Linear Sederhana
regresisederhana <- lm(y1 ~ x)
summary(regresisederhana)
##
## Call:
## lm(formula = y1 ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -13.280 -7.491 -4.477 6.745 31.129
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.0538 6.2879 3.666 0.008 **
## x -0.1971 0.1969 -1.001 0.350
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.71 on 7 degrees of freedom
## Multiple R-squared: 0.1253, Adjusted R-squared: 0.0003201
## F-statistic: 1.003 on 1 and 7 DF, p-value: 0.35
Menganalisis Regresi Linear Ganda
regresiganda <- lm(y ~ X1 + X2)
summary(regresiganda)
##
## Call:
## lm(formula = y ~ X1 + X2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.378 -5.294 1.377 5.215 7.926
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.78166 16.77914 1.894 0.0907 .
## X1 -0.02272 0.29847 -0.076 0.9410
## X2 0.03689 0.22839 0.162 0.8752
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.838 on 9 degrees of freedom
## Multiple R-squared: 0.006591, Adjusted R-squared: -0.2142
## F-statistic: 0.02986 on 2 and 9 DF, p-value: 0.9707
anova(regresiganda)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 1.57 1.572 0.0336 0.8586
## X2 1 1.22 1.220 0.0261 0.8752
## Residuals 9 420.87 46.764
Contoh Model Dataset Regresi Linear Ganda
Kita akan meneliti variasi berat badan (y) dikaitkan dengan tinggi badan (X1) dan umur (X2) untuk anak-anak yang memiliki masalah atau kekurangan gizi.
- Peubah terikat: berat badan,
- Peubah Bebas : tinggi badan dan umur
- Andaikan bahwa sebuah sampel acak terdiri dari 12 anak yang mengunjungi sebuah klinik.
- Data berat (kg), tinggi (cm), dan umur (tahun) diperoleh untuk setiap anak .
Interpretasi Hasil Analisis Regresi Ganda
Taksiran parameter model dapat diperoleh dari “Estimate”
yprediksi=b0+b1x1+b2x2
dimana b0 = 19.608816 , b1 = -0.009868 dan b2 = 1.069854,Sehingga Persamaan Regresi
yprediksi = 56.2721 -0.009868 x1 + 1.069854 x2, Kita menggunakan taraf kesignifikanan alpha (a) = 5%.
Kesignifikanan Model: Uji F
Nilai F -statistic = 2.336 dengan nilai p-value = 0.1523 memberikan informasi tentang kesignifikanan model. Karena nilai p-value < a, ini berarti model signifikan secara statistis.
Kriteria kesimpulan:
Pengujian signifikan : p-value < a Pengujian tidak signifikan : p-value >= a
Jadi, penaksiran, peramalan, atau inferensi yang lain dapat dilakukan dengan menggunakan model regresi tersebut karena model signifikan
Daya ramal model:
R2(Koefisien Determinasi) Multiple R-squared = 0.3417 Artinya model mempunyai daya ramal 34.17% (variasi Y dapat dijelaskan oleh model).
Kemampuan variable independen dalam menjelaskan varians dari variable dependen sebesar 34.17%,
sisanya 66% varians variable dependen dijelaskan oleh faktor lain yang tidak terdapat dalam model regresi tersebut.
- Nilai R-squared terletak antara 0 dan 1.
- Adjusted R-squared = 0.1955 , artinya tinggi dan umur secara bersama sama dapat menjelaskan sekitar 19,55% variasi berat (Y).
R-squared
Nilai R-squared akan meningkat jika ada penambahan variable independen dalam model. akibatnya, hasil bisa bias jika peneliti menambahkan sembarang peubah independent.
Adjusted R square
Interpretasinya sama dengan R-squared.
- nilainya dapat naik turun tergantung dari hubungan antara variable independen tambahan dengan variable independennya.
- Umumnya peneliti menyarankan menggunakan Adjusted R square.
- Jika ingin membandingkan model gunakan Adjusted R square.
Kesignifikanan masing masing peubah bebas
Hanya peubah X2 yang signifikan karena nilai t value=2.116 dengan nilai p=0.0635 < alpha koefisien regresi untuk X2, yaitu b2=1.069854 dapat diinterpretasi bahwa:
Seiring dengan bertambahnya umur (X2) anak-anak setiap tahun, maka berat (y) dan tinggi (X1) dapat bertambah sebesar 1.069854 kg/cm juga tiap tahunnya.