Membaca Data

DataLiver <- read.csv("C:/Users/Alista/Documents/Semester 4/ANREG/Minggu 2/data liver.csv",  sep=";")
DataLiver
##    No    X1    X2    X3    X4    X5      Y
## 1   1 16.36  8.90  3.47  6.02 57.42 158.76
## 2   2 26.68 21.22  3.53 12.07 61.38 197.19
## 3   3 12.49 16.62  2.00  8.88 67.42 144.73
## 4   4  8.45 22.86  6.71  7.46 69.94 140.06
## 5   5 10.19 14.23  4.75  2.06 65.68 129.71
## 6   6 19.53 17.35  1.95  7.54 59.63 162.59
## 7   7 20.65 10.48  2.21  4.88 59.42 178.48
## 8   8 22.96 14.23  4.25  3.69 75.08 120.90
## 9   9 21.22 21.64  4.10 11.94 43.42 191.24
## 10 10  8.11  3.16  0.78  8.82 75.12 150.03
## 11 11 24.74  7.84  1.68  3.68 57.65 173.44
## 12 12 11.38 15.71  3.56  7.20 39.93 211.98
## 13 13 15.82 15.04  2.40  9.89 51.27 193.49
## 14 14  8.36  9.01  2.01  3.40 50.52 164.04
## 15 15 12.04  9.72  2.27  6.03 51.60 156.97
## 16 16 10.97  4.58  1.73  5.55 56.63 208.36
## 17 17  7.97  9.33  0.57  4.17 79.09 154.62
## 18 18  7.46  6.11  1.73  2.99 57.20 137.38
## 19 19 29.09 15.71  3.41  9.35 56.44 180.15
## 20 20 10.30  8.54  2.32 10.78 60.43 228.47
## 21 21  7.82  4.41  1.07  4.19 59.52 153.62
## 22 22 14.71  6.29  1.77  6.16 65.05 121.31
## 23 23  8.54  6.73  1.27  5.52 65.65 157.37
## 24 24 23.05 11.34  5.39  3.00 33.57 211.27
## 25 25 13.12  5.86  1.89 10.92 52.93 178.16
## 26 26  7.41  9.11  2.05  5.50 53.72 174.89
## 27 27 14.59  5.59  1.26  3.75 58.62 142.98
## 28 28  8.52  6.52  1.00  6.92 56.61 165.59
## 29 29 18.97  6.35  2.94  5.61 56.41 141.54
## 30 30 35.41 36.36 14.23 15.00 41.52 238.22
## 31 31  4.55  1.27  3.13  2.83 70.91 138.42
## 32 32 22.59 28.70 10.51 10.35 32.74 247.45
## 33 33  9.21  4.55  1.19  7.92 72.20 140.27
## 34 34 18.32 11.61  2.91  8.07 52.23 216.06
## 35 35  5.69  6.88  1.18  2.78 72.12 144.18
## 36 36 11.21 11.92  3.31 10.29 60.65 156.22
y<-DataLiver$Y
x1<-DataLiver$X1
x2<-DataLiver$X2
x3<-DataLiver$X3
x4<-DataLiver$X4 
x5<-DataLiver$X5
x6<-DataLiver$X6

DataLiver<-data.frame(cbind(y,x1,x2,x3,x4,x5,x6))
head(DataLiver)
##        y    x1    x2   x3    x4    x5
## 1 158.76 16.36  8.90 3.47  6.02 57.42
## 2 197.19 26.68 21.22 3.53 12.07 61.38
## 3 144.73 12.49 16.62 2.00  8.88 67.42
## 4 140.06  8.45 22.86 6.71  7.46 69.94
## 5 129.71 10.19 14.23 4.75  2.06 65.68
## 6 162.59 19.53 17.35 1.95  7.54 59.63
n <- nrow(DataLiver)
n
## [1] 36
p <- ncol (DataLiver)
p
## [1] 6

Eksplorasi Data

plot(x5,y)

Berdasarkan scatter plot antara variabel penjelas x5 dengan variabel respon y pada data liver terdapat hubungan negatif yang menandakan bahwa peningkatan nilai variabel pada x5 akan menghasilkan penurunan nilai pada variabel y. Keduanya memiliki hubungan linear yang membentuk pola seperti garis lurus pada trendline. Korelasi antara keduanya lemah ditunjukkan dengan kerapatan antara titik-titiknya yang renggang.

summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   120.9   143.9   160.7   169.7   191.8   247.4

Variabel y memiliki nilai minimum sebesar 120.9, nilai tengah 160.7, dan nilai maksimum 247.4

boxplot(x5)

Berdasarkan boxplot dapat dilihat bahwa nilai maksimum variabel x5 mendekati 80, nilai minimum di bawah 40. Nilai median di sekitar angka 58. Median yang berada tidak tepat di tengah box menandakan bahwa data menyebar tidak simetris. Terdapat outlier pada data di bagian bawah boxplot disertai dengan whiskers bagian bawah lebih panjang dari pada bagian atas menunjukkan bahwa data yang ada pada variabel x5 cenderung menjulur ke kiri.

hist(y)

Berdasarkan hasil histogram y dapat diketahui bahwa sebaran datanya cenderung tidak simetris dan berdistribusi miring kanan. Dari histogram dapat dilihat bahwa nilai pada variabel yang paling banyak berada di kisaran 140-159 dan nilai yang paling sedikit berada di rentang 240-260.

summary(x5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   32.74   52.76   58.13   58.33   65.66   79.09

Variabel x5 memiliki nilai minimum 32.74, nilai tengah 58.13, nilai maksimum 79.09

Parameter Regresi

b1<-(sum(x5*y)-sum(x5)*sum(y)/n)/(sum(x5^2)-(sum(x5)^2/n))
b1
## [1] -2.183482
b0<-mean(y)-b1*mean(x5)
b0
## [1] 297.0789

Didapatkan b1 sebesar -2.183482 yang menunjukkan bahwa kenaikan tiap satu satuan pada variabel x5 diduga berpengaruh terhadap rata-rata penurunan pada variabel y sebesar -2.183482. b0 sebesar 297.0789 menunjukkan bahwa terdapat nilai y sebesar 297.0789 yang tidak dapat dijelaskan oleh variabel x5.

Koefisien Determinasi dan Penyesuainnya

r<-(sum(x5*y)-sum(x5)*sum(y)/n)/
  sqrt((sum(x5^2)-(sum(x5)^2/n))*(sum(y^2)-(sum(y)^2/n)))
r
## [1] -0.7353813
Koef_det<-r^2
Koef_det
## [1] 0.5407857

Nilai korelasi sebesar -0.7353813 menunjukkan adanya hubungan negatif yang kuat antara kedua variabel. Nilai determinasi sebesar 0.5407857 menunjukkan bahwa ukuran keragaman pada variabel y disebabkan oleh variabel x5 sebesar 54.07857% dan selebihnya disebabkan oleh faktor lain selain variabel x5 yang diteliti.

Adj_R2<-1-((1-Koef_det)*(n-1)/(n-1-1))
Adj_R2
## [1] 0.5272794

Standart Error Parameter Regresi

galat<-y-(b0+b1*x5)
galat
##  [1] -12.9433750  34.1332122  -5.1385588  -4.3061851 -23.9578168  -4.2878806
##  [7]  11.1435882 -12.2430895 -11.0321178  16.9742497   2.2388257   2.0875314
## [13]   8.3582130 -22.7293982 -27.4412381  34.9316745  30.2326718 -34.8037410
## [19]   6.3068130  63.3389047 -13.4980636 -33.7334102   3.6366787 -12.5094118
## [25]  -3.3472075  -4.8922570 -26.1031971  -7.8819951 -32.3686915  31.7992671
## [31]  -3.8282079  21.8582985   0.8384834  33.0243553   4.5738049  -8.4307294
ragam_galat<-sum(galat^2)/(n-2)
ragam_galat
## [1] 511.8528
se_b1<-sqrt(ragam_galat/sum((x5-mean(x5))^2))
se_b1
## [1] 0.3450684
se_b0<-sqrt(ragam_galat*(1/n+mean(x5)^2/sum((x5-mean(x5))^2)))
se_b0
## [1] 20.47648

Signifikansi Parameter (Nilai-t)

t_b0<-b0/se_b0
t_b0
## [1] 14.5083
t_b1<-b1/se_b1
t_b1
## [1] -6.327678
2*pt(-abs(t_b0 ),df<-n-2)
## [1] 3.965296e-16
2*pt(-abs(t_b1 ),df<-n-2)
## [1] 3.243599e-07

Ukuran Keragaman

galat<-y-(b0+b1*x1)

JKG <- sum((y - (b0+b1*x5))^2)
JKReg <- sum(((b0+b1*x5)- mean(y))^2)
JKT <- sum((y - mean(y))^2)
JKT <- JKReg+JKG

dbReg<-1
dbg<-n-2
dbt<-n-1

Fhit<-(JKReg/dbReg)/(JKG/dbg)
Fhit
## [1] 40.03951
P.value<-1-pf(Fhit, dbReg, dbg, lower.tail <- F)
P.value
## [1] 3.243599e-07

P value yang didapatkan sangat kecil yaitu sebesar 3.243599e-07 hal ini menunjukkan bahwa terdapat perbedaan yang cukup siginifikan antara dua kelompok sebagai variabel.

Pembentukan Model Dengan Fungsi lm

model<-lm(y~x5,DataLiver<-DataLiver)
summary(model)
## 
## Call:
## lm(formula = y ~ x5, data = DataLiver <- DataLiver)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -34.804 -12.618  -4.058   9.055  63.339 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 297.0789    20.4765  14.508 3.97e-16 ***
## x5           -2.1835     0.3451  -6.328 3.24e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22.62 on 34 degrees of freedom
## Multiple R-squared:  0.5408, Adjusted R-squared:  0.5273 
## F-statistic: 40.04 on 1 and 34 DF,  p-value: 3.244e-07
anova(model)
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x5         1  20494 20494.3  40.039 3.244e-07 ***
## Residuals 34  17403   511.9                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dari kedua cara yang dilakukan didapatkan hasil yang sama dan valid dalam membuat pemodelan regresi linear sederhana.

Pemodelan regresi linear sederhana yang melihat hubungan antara variabel x5 dan y dapat dituliskan dengan y = 297.0789 - 2.183482x.