Pada Chapter ini, kita akan membahas cara membangun model regresi menggunakan R. Langkah-langkah dapat dilakukan sebagai berikut :
Tipe file XSLX adalah merupakan tipe file dari excel 2007 . Untuk cara importnya seperti berikut;
# perintah pertama untuk membaca file data tableregresisederhana.xlsx
library(readxl)
dataregresi <- read_excel("tableregresisederhana.xlsx")
Untuk melihat dataregresi
head(dataregresi)
## # A tibble: 6 x 14
## A1 A2 A3 A4 A5 A B1 B2 B3 B C1 C2 C3
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5 5 6 6 6 28 6 6 6 18 6 6 6
## 2 3 2 2 2 3 12 4 4 3 11 2 4 3
## 3 2 2 2 3 3 12 3 4 4 11 5 5 4
## 4 3 3 2 3 3 14 4 3 3 10 3 4 3
## 5 6 6 5 6 6 29 6 6 6 18 6 6 5
## 6 3 3 1 2 4 13 3 3 3 9 3 3 3
## # ... with 1 more variable: C <dbl>
Untuk melihat karakteristik data dapat dilihat dengan
summary(dataregresi)
## A1 A2 A3 A4
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:3.000
## Median :4.000 Median :4.000 Median :4.000 Median :4.000
## Mean :4.276 Mean :4.228 Mean :4.069 Mean :4.083
## 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000
## Max. :6.000 Max. :6.000 Max. :6.000 Max. :6.000
## A5 A B1 B2
## Min. :1.000 Min. : 5.00 Min. :1.000 Min. :1.000
## 1st Qu.:3.000 1st Qu.:18.00 1st Qu.:4.000 1st Qu.:4.000
## Median :4.000 Median :22.00 Median :4.000 Median :5.000
## Mean :4.172 Mean :20.83 Mean :4.469 Mean :4.538
## 3rd Qu.:5.000 3rd Qu.:25.00 3rd Qu.:5.000 3rd Qu.:5.000
## Max. :6.000 Max. :30.00 Max. :6.000 Max. :6.000
## B3 B C1 C2
## Min. :1.000 Min. : 3.00 Min. :1.000 Min. :1.000
## 1st Qu.:4.000 1st Qu.:12.00 1st Qu.:4.000 1st Qu.:4.000
## Median :5.000 Median :14.00 Median :4.000 Median :5.000
## Mean :4.531 Mean :13.54 Mean :4.455 Mean :4.572
## 3rd Qu.:5.000 3rd Qu.:15.00 3rd Qu.:5.000 3rd Qu.:6.000
## Max. :6.000 Max. :18.00 Max. :6.000 Max. :6.000
## C3 C
## Min. :1.000 Min. : 3.0
## 1st Qu.:4.000 1st Qu.:11.0
## Median :5.000 Median :14.0
## Mean :4.572 Mean :13.6
## 3rd Qu.:6.000 3rd Qu.:16.0
## Max. :6.000 Max. :18.0
Visualisasikan data A1 dan A dalam diagram pencar (scatter plot).
plot(dataregresi$A1, dataregresi$A, col = "blue")
Uji relasi menggunakan
cor.test(dataregresi$A,dataregresi$A1)
##
## Pearson's product-moment correlation
##
## data: dataregresi$A and dataregresi$A1
## t = 16.449, df = 143, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7439256 0.8586455
## sample estimates:
## cor
## 0.8088484
Dari output diatas menunjukkan bahwa p-value<0.05 sehingga dapat disimpulkan bahwa terdapat hubungan antara A dengan A1. untuk selanjutnya dapat dilakukan uji korelasi anatara variabel A dengan variabel A2, A3, A4 dan A5.
Didapat nilai koefisien koreasi sebesar 0.8088484. tanda positip menunjukkan bahwa hubungan yang ada adalah hubungan berbanding tidak terbalik
Tabel histogram dapat dibuat :
hist(dataregresi$A1)
Setelah dilakukan scatterplot data dan uji korelasi, lalu dilakukan analisis model regresi. Analisis model regresi merupakan salah satu metode statistik yang dapat digunakan untuk melakukan prediksi. Dalam hal ini ingin melakukan prediksi variabel A dengan mempertimbangkan pengaruh dari variabel A1, A2, A3, A4, dan A5. Pada tutorial kali ini, akan membahas Multiple Linear Regression.
Variabel yang akan diprediksi (Dependent) : A Variabel yang mempengaruhi prediksi (Indepedent) : A1, A2, A3, A4, dan A5. Untuk Model dapat diperoleh dengan kode program sebagai berikut :
regresi= lm(dataregresi$A ~ dataregresi$A1 + dataregresi$A2 + dataregresi$A3 + dataregresi$A4 + dataregresi$A5)
summary(regresi)
## Warning in summary.lm(regresi): essentially perfect fit: summary may be
## unreliable
##
## Call:
## lm(formula = dataregresi$A ~ dataregresi$A1 + dataregresi$A2 +
## dataregresi$A3 + dataregresi$A4 + dataregresi$A5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.718e-14 -1.032e-15 -2.460e-16 5.900e-16 5.221e-14
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.671e-15 1.707e-15 -4.494e+00 1.46e-05 ***
## dataregresi$A1 1.000e+00 5.038e-16 1.985e+15 < 2e-16 ***
## dataregresi$A2 1.000e+00 5.933e-16 1.685e+15 < 2e-16 ***
## dataregresi$A3 1.000e+00 5.303e-16 1.886e+15 < 2e-16 ***
## dataregresi$A4 1.000e+00 4.918e-16 2.033e+15 < 2e-16 ***
## dataregresi$A5 1.000e+00 4.315e-16 2.317e+15 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.01e-15 on 139 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 3.28e+31 on 5 and 139 DF, p-value: < 2.2e-16
A1 = p-value < alpha 5%, maka A1 tidak berpengaruh signifikan dalam model A2 = p-value < alpha 5%, maka A2 tidak berpengaruh signifikan dalam model A3 = p-value < alpha 5%, maka A3 tidak berpengaruh signifikan dalam model A4 = p-value < alpha 5%, maka A4 tidak berpengaruh signifikan dalam model A5 = p-value < alpha 5%, maka A5 tidak berpengaruh signifikan dalam model
Dengan Multiple R-squared: 1
sehingga berdasarkan nilai diatas, maka model regresi untuk A adalah :
A = -7.671e-15 + 1.000e+00 A1 + 1.000e+00 A2 + 1.000e+00 A3 + 1.000e+00 A4 - 1.000e+00 A5
yang artinya keragaman A yang dapat dijelaskan oleh A1, A2, A3, A4, dan A5 sebesar 100% sedangnkan 0% dijelaskan oleh faktor lain diluar model ini.
Menampilkan plot dengan fungsi:
library ("ggplot2")
g1=ggplot(dataregresi,aes(A1,A))+geom_point()+geom_smooth(method="lm",se=T)
g1
## `geom_smooth()` using formula 'y ~ x'
Berdasarkan pola diatas dimana titik-titik membentuk suatu garis lurus, diduga variabel A1 memiliki hubungan dengan Variabel A
Daftar Pustaka https://rpubs.com/mega/retaindonesia