Universitas : UIN Maulana Malik Ibrahim Malang
Jurusan : Teknik Informatika
Linier Algebra C ’21
Regresi linier adalah suatu metode statistika untuk mencari tahu hubungan antara variabel terikat atau (y) dengan satu atau lebih variabel bebas (x). Regresi ini digunakan untuk mengetahui apakah variabel bebas yang diteliti memiliki korelasi yang signifikan terhadap variabel terikat dan dapat digunakan mengetahui variabel mana saja yang berpengaruh signifikan terhadap variabel terikat. Jenis-jenis regresi linier ada dua, yaitu regresi linier sederhana dan regresi linier berganda.
a. Regresi Linier Sederhana yaitu suatu metode untuk melihat hubungan diantara satu variabel bebas dan mempunyai hubungan garis lurus dengan variabel terikatnya. Contohnya produksi pakaian yang dipengaruhi oleh berapa banyak mesin, bahan kain yang digunakan, dan lain-lain.
b. Regresi Linier Ganda yaitu suatu metode untuk melihat hubungan secara linier antara dua atau lebih variabel bebas dengan variabel terikatnya. Data biasanya berskala interval atau rasio.
Contoh dataset linier sederhana :
y1 <- c(10,11,12,13,14,15,16,17)
x <- c(2,3,4,5,6,7,8)
Contoh dataset linier ganda :
y <- c(2,4,5,3,8,6,9,7,6,1)
x1 <- c(95,80,75,100,55,74,83,96,64,88)
x2 <- c(14,22,12,42,39,25,33,15,28,45)
length(y1)
## [1] 8
length(x)
## [1] 7
length(y)
## [1] 10
length(x1)
## [1] 10
length(x2)
## [1] 10
regresisederhana <- lm(y ~ x1)
summary(regresisederhana)
##
## Call:
## lm(formula = y ~ x1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4653 -1.0540 -0.5093 0.4733 4.0813
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.44411 4.50641 2.761 0.0246 *
## x1 -0.09067 0.05485 -1.653 0.1369
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.382 on 8 degrees of freedom
## Multiple R-squared: 0.2546, Adjusted R-squared: 0.1614
## F-statistic: 2.732 on 1 and 8 DF, p-value: 0.1369
regresiganda <- lm(y ~ x1 + x2)
summary(regresiganda)
##
## Call:
## lm(formula = y ~ x1 + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.9299 -1.2964 -0.2849 0.6571 4.2491
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.46013 5.33416 2.523 0.0396 *
## x1 -0.09316 0.05821 -1.600 0.1535
## x2 -0.02960 0.07026 -0.421 0.6862
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.515 on 7 degrees of freedom
## Multiple R-squared: 0.273, Adjusted R-squared: 0.0653
## F-statistic: 1.314 on 2 and 7 DF, p-value: 0.3276
anova(regresiganda)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 15.504 15.5042 2.4513 0.1614
## x2 1 1.122 1.1222 0.1774 0.6862
## Residuals 7 44.274 6.3248
Kami akan menganalisis variasi usia televisi (y) dikaitkan dengan harga televisi (X1) dan peminat (X2) untuk di kalangan remaja.
Variable Terikat : Usia televisi,
Variable Bebas : Harga televisi dan Peminat
Data usia televisi (tahun), harga ($US) dan peminat (orang) yang diperoleh untuk setiap kalangan remaja.
Taksiran parameter model dapat diperoleh dari “Estimate”
ksi=b0+b1x1+b2x2
$yprediksi=b0+b1x1+b2x2$
dimana b0 = -1.43524 , b1 = 0.08238 dan b2 = -0.04653 ,Sehingga Persamaan Regresi
yprediksi = 56.2721 + 0.08238 x1 - 0.04653 x2, Kita menggunakan taraf kesignifikanan alpha a = 5%.
Kesignifikanan Model: Uji F
Nilai F -statistic = 1.314 dengan nilai p-value = 0.3276 memberikan informasi tentang kesignifikanan model. Karena nilai p-value < a, ini berarti model signifikan secara statistis.
Kriteria kesimpulan:
Pengujian signifikan : p-value < a Pengujian tidak signifikan : p-value >= a
Jadi, penaksiran, peramalan, atau inferensi yang lain dapat dilakukan dengan menggunakan model regresi tersebut karena model signifikan.
Daya ramal model:
R2(Koefisien Determinasi) Multiple R-squared = 0.273 Artinya model mempunyai daya ramal 27.30% (variasi Y dapat dijelaskan oleh model).
Kemampuan variable independen dalam menjelaskan varians dari variable dependen sebesar 27.30%,
sisanya 72.7% varians variable dependen dijelaskan oleh faktor lain yang tidak terdapat dalam model regresi tersebut.
Nilai R-squared terletak antara 0 dan 1.
Adjusted R-squared = 0.0653 , artinya tinggi dan umur secara bersama sama dapat menjelaskan sekitar 6.53% variasi berat (Y).
R-squared
Nilai R-squared akan meningkat jika ada penambahan variable independen dalam model sehingga hasil dapat bias jika peneliti menambahkan sembarang peubah independent. Adjusted R square Interpretasinya sama dengan R-squared. Nilainya dapat naik turun tergantung dari hubungan antara variable independen tambahan dengan variable independennya. Umumnya peneliti menyarankan menggunakan Adjusted R square. Jika ingin membandingkan model gunakan Adjusted R square.
Kesignifikanan masing masing variable bebas
Hanya variable X2 yang signifikan karena nilai t value=-1.653 dengan nilai p= 0.1369 < alpha koefisien regresi untuk X2, yaitu b2=-0.04653 dapat diinterpretasi bahwa:
Seiring dengan bertambahnya peminat (X2) televisi setiap tahun, maka usia (y) dan harga televisi (X1) dapat bertambah sebesar 4.01339 peminat juga tiap tahunnya.