Pada Chapter ini, kita akan membahas cara membangun model regresi menggunakan R. Langkah-langkah dapat dilakukan sebagai berikut :

  1. Pengambilan data Adapun data yang digunakan pada chapter ini adalah data tableregresisederhana.xlsx di URL https://docs.google.com/spreadsheets/d/1N5gYt9oiE42FpFryp-JGmGXvdgOD_GyP/edit?usp=sharing&ouid=117561626746546590770&rtpof=true&sd=true

Tipe file XSLX adalah merupakan tipe file dari excel 2007 . Untuk cara importnya seperti berikut;

# perintah pertama untuk membaca file data tableregresisederhana.xlsx
library(readxl)
dataregresi <- read_excel("tableregresisederhana.xlsx")

Untuk melihat dataregresi

head(dataregresi)
## # A tibble: 6 x 14
##      A1    A2    A3    A4    A5     A    B1    B2    B3     B    C1    C2    C3
##   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1     5     5     6     6     6    28     6     6     6    18     6     6     6
## 2     3     2     2     2     3    12     4     4     3    11     2     4     3
## 3     2     2     2     3     3    12     3     4     4    11     5     5     4
## 4     3     3     2     3     3    14     4     3     3    10     3     4     3
## 5     6     6     5     6     6    29     6     6     6    18     6     6     5
## 6     3     3     1     2     4    13     3     3     3     9     3     3     3
## # ... with 1 more variable: C <dbl>

Untuk melihat karakteristik data dapat dilihat dengan

summary(dataregresi)
##        A1              A2              A3              A4       
##  Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:3.000   1st Qu.:3.000   1st Qu.:3.000   1st Qu.:3.000  
##  Median :4.000   Median :4.000   Median :4.000   Median :4.000  
##  Mean   :4.276   Mean   :4.228   Mean   :4.069   Mean   :4.083  
##  3rd Qu.:5.000   3rd Qu.:5.000   3rd Qu.:5.000   3rd Qu.:5.000  
##  Max.   :6.000   Max.   :6.000   Max.   :6.000   Max.   :6.000  
##        A5              A               B1              B2       
##  Min.   :1.000   Min.   : 5.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.:3.000   1st Qu.:18.00   1st Qu.:4.000   1st Qu.:4.000  
##  Median :4.000   Median :22.00   Median :4.000   Median :5.000  
##  Mean   :4.172   Mean   :20.83   Mean   :4.469   Mean   :4.538  
##  3rd Qu.:5.000   3rd Qu.:25.00   3rd Qu.:5.000   3rd Qu.:5.000  
##  Max.   :6.000   Max.   :30.00   Max.   :6.000   Max.   :6.000  
##        B3              B               C1              C2       
##  Min.   :1.000   Min.   : 3.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.:4.000   1st Qu.:12.00   1st Qu.:4.000   1st Qu.:4.000  
##  Median :5.000   Median :14.00   Median :4.000   Median :5.000  
##  Mean   :4.531   Mean   :13.54   Mean   :4.455   Mean   :4.572  
##  3rd Qu.:5.000   3rd Qu.:15.00   3rd Qu.:5.000   3rd Qu.:6.000  
##  Max.   :6.000   Max.   :18.00   Max.   :6.000   Max.   :6.000  
##        C3              C       
##  Min.   :1.000   Min.   : 3.0  
##  1st Qu.:4.000   1st Qu.:11.0  
##  Median :5.000   Median :14.0  
##  Mean   :4.572   Mean   :13.6  
##  3rd Qu.:6.000   3rd Qu.:16.0  
##  Max.   :6.000   Max.   :18.0

Visualisasikan data A1 dan A dalam diagram pencar (scatter plot).

plot(dataregresi$A1, dataregresi$A, col = "blue")

Uji relasi menggunakan

cor.test(dataregresi$A,dataregresi$A1)
## 
##  Pearson's product-moment correlation
## 
## data:  dataregresi$A and dataregresi$A1
## t = 16.449, df = 143, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7439256 0.8586455
## sample estimates:
##       cor 
## 0.8088484

Dari output diatas menunjukkan bahwa p-value<0.05 sehingga dapat disimpulkan bahwa terdapat hubungan antara A dengan A1. untuk selanjutnya dapat dilakukan uji korelasi anatara variabel A dengan variabel A2, A3, A4 dan A5.

Didapat nilai koefisien koreasi sebesar 0.8088484. tanda positip menunjukkan bahwa hubungan yang ada adalah hubungan berbanding tidak terbalik

Tabel histogram dapat dibuat :

hist(dataregresi$A1)

Setelah dilakukan scatterplot data dan uji korelasi, lalu dilakukan analisis model regresi. Analisis model regresi merupakan salah satu metode statistik yang dapat digunakan untuk melakukan prediksi. Dalam hal ini ingin melakukan prediksi variabel A dengan mempertimbangkan pengaruh dari variabel A1, A2, A3, A4, dan A5. Pada tutorial kali ini, akan membahas Multiple Linear Regression.

Variabel yang akan diprediksi (Dependent) : A Variabel yang mempengaruhi prediksi (Indepedent) : A1, A2, A3, A4, dan A5. Untuk Model dapat diperoleh dengan kode program sebagai berikut :

regresi= lm(dataregresi$A ~ dataregresi$A1 + dataregresi$A2 + dataregresi$A3 + dataregresi$A4 + dataregresi$A5)
summary(regresi)
## Warning in summary.lm(regresi): essentially perfect fit: summary may be
## unreliable
## 
## Call:
## lm(formula = dataregresi$A ~ dataregresi$A1 + dataregresi$A2 + 
##     dataregresi$A3 + dataregresi$A4 + dataregresi$A5)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -1.718e-14 -1.032e-15 -2.460e-16  5.900e-16  5.221e-14 
## 
## Coefficients:
##                  Estimate Std. Error    t value Pr(>|t|)    
## (Intercept)    -7.671e-15  1.707e-15 -4.494e+00 1.46e-05 ***
## dataregresi$A1  1.000e+00  5.038e-16  1.985e+15  < 2e-16 ***
## dataregresi$A2  1.000e+00  5.933e-16  1.685e+15  < 2e-16 ***
## dataregresi$A3  1.000e+00  5.303e-16  1.886e+15  < 2e-16 ***
## dataregresi$A4  1.000e+00  4.918e-16  2.033e+15  < 2e-16 ***
## dataregresi$A5  1.000e+00  4.315e-16  2.317e+15  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.01e-15 on 139 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 3.28e+31 on 5 and 139 DF,  p-value: < 2.2e-16

A1 = p-value < alpha 5%, maka A1 tidak berpengaruh signifikan dalam model A2 = p-value < alpha 5%, maka A2 tidak berpengaruh signifikan dalam model A3 = p-value < alpha 5%, maka A3 tidak berpengaruh signifikan dalam model A4 = p-value < alpha 5%, maka A4 tidak berpengaruh signifikan dalam model A5 = p-value < alpha 5%, maka A5 tidak berpengaruh signifikan dalam model

Dengan Multiple R-squared: 1

sehingga berdasarkan nilai diatas, maka model regresi untuk A adalah :

A = -7.671e-15 + 1.000e+00 A1 + 1.000e+00 A2 + 1.000e+00 A3 + 1.000e+00 A4 - 1.000e+00 A5

yang artinya keragaman A yang dapat dijelaskan oleh A1, A2, A3, A4, dan A5 sebesar 100% sedangnkan 0% dijelaskan oleh faktor lain diluar model ini.

Menampilkan plot dengan fungsi:

library ("ggplot2") 
g1=ggplot(dataregresi,aes(A1,A))+geom_point()+geom_smooth(method="lm",se=T)
g1
## `geom_smooth()` using formula 'y ~ x'

Berdasarkan pola diatas dimana titik-titik membentuk suatu garis lurus, diduga variabel A1 memiliki hubungan dengan Variabel A

Daftar Pustaka https://rpubs.com/mega/retaindonesia