DataLiver <- read.csv("C:/Users/Alista/Documents/Semester 4/ANREG/Minggu 2/data liver.csv", sep=";")
DataLiver
## No X1 X2 X3 X4 X5 Y
## 1 1 16.36 8.90 3.47 6.02 57.42 158.76
## 2 2 26.68 21.22 3.53 12.07 61.38 197.19
## 3 3 12.49 16.62 2.00 8.88 67.42 144.73
## 4 4 8.45 22.86 6.71 7.46 69.94 140.06
## 5 5 10.19 14.23 4.75 2.06 65.68 129.71
## 6 6 19.53 17.35 1.95 7.54 59.63 162.59
## 7 7 20.65 10.48 2.21 4.88 59.42 178.48
## 8 8 22.96 14.23 4.25 3.69 75.08 120.90
## 9 9 21.22 21.64 4.10 11.94 43.42 191.24
## 10 10 8.11 3.16 0.78 8.82 75.12 150.03
## 11 11 24.74 7.84 1.68 3.68 57.65 173.44
## 12 12 11.38 15.71 3.56 7.20 39.93 211.98
## 13 13 15.82 15.04 2.40 9.89 51.27 193.49
## 14 14 8.36 9.01 2.01 3.40 50.52 164.04
## 15 15 12.04 9.72 2.27 6.03 51.60 156.97
## 16 16 10.97 4.58 1.73 5.55 56.63 208.36
## 17 17 7.97 9.33 0.57 4.17 79.09 154.62
## 18 18 7.46 6.11 1.73 2.99 57.20 137.38
## 19 19 29.09 15.71 3.41 9.35 56.44 180.15
## 20 20 10.30 8.54 2.32 10.78 60.43 228.47
## 21 21 7.82 4.41 1.07 4.19 59.52 153.62
## 22 22 14.71 6.29 1.77 6.16 65.05 121.31
## 23 23 8.54 6.73 1.27 5.52 65.65 157.37
## 24 24 23.05 11.34 5.39 3.00 33.57 211.27
## 25 25 13.12 5.86 1.89 10.92 52.93 178.16
## 26 26 7.41 9.11 2.05 5.50 53.72 174.89
## 27 27 14.59 5.59 1.26 3.75 58.62 142.98
## 28 28 8.52 6.52 1.00 6.92 56.61 165.59
## 29 29 18.97 6.35 2.94 5.61 56.41 141.54
## 30 30 35.41 36.36 14.23 15.00 41.52 238.22
## 31 31 4.55 1.27 3.13 2.83 70.91 138.42
## 32 32 22.59 28.70 10.51 10.35 32.74 247.45
## 33 33 9.21 4.55 1.19 7.92 72.20 140.27
## 34 34 18.32 11.61 2.91 8.07 52.23 216.06
## 35 35 5.69 6.88 1.18 2.78 72.12 144.18
## 36 36 11.21 11.92 3.31 10.29 60.65 156.22
y<-DataLiver$Y
x1<-DataLiver$X1
x2<-DataLiver$X2
x3<-DataLiver$X3
x4<-DataLiver$X4
x5<-DataLiver$X5
x6<-DataLiver$X6
DataLiver<-data.frame(cbind(y,x1,x2,x3,x4,x5,x6))
head(DataLiver)
## y x1 x2 x3 x4 x5
## 1 158.76 16.36 8.90 3.47 6.02 57.42
## 2 197.19 26.68 21.22 3.53 12.07 61.38
## 3 144.73 12.49 16.62 2.00 8.88 67.42
## 4 140.06 8.45 22.86 6.71 7.46 69.94
## 5 129.71 10.19 14.23 4.75 2.06 65.68
## 6 162.59 19.53 17.35 1.95 7.54 59.63
n <- nrow(DataLiver)
n
## [1] 36
p <- ncol (DataLiver)
p
## [1] 6
plot(x5,y)
Berdasarkan scatter plot antara variabel penjelas x5 dengan variabel respon y pada data liver terdapat hubungan negatif yang menandakan bahwa peningkatan nilai variabel pada x5 akan menghasilkan penurunan nilai pada variabel y. Keduanya memiliki hubungan linear yang membentuk pola seperti garis lurus pada trendline. Korelasi antara keduanya lemah ditunjukkan dengan kerapatan antara titik-titiknya yang renggang.
summary(y)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 120.9 143.9 160.7 169.7 191.8 247.4
Variabel y memiliki nilai minimum sebesar 120.9, nilai tengah 160.7, dan nilai maksimum 247.4
boxplot(x5)
Berdasarkan boxplot dapat dilihat bahwa nilai maksimum variabel x5 mendekati 80, nilai minimum di bawah 40. Nilai median di sekitar angka 58. Median yang berada tidak tepat di tengah box menandakan bahwa data menyebar tidak simetris. Terdapat outlier pada data di bagian bawah boxplot disertai dengan whiskers bagian bawah lebih panjang dari pada bagian atas menunjukkan bahwa data yang ada pada variabel x5 cenderung menjulur ke kiri.
hist(y)
Berdasarkan hasil histogram y dapat diketahui bahwa sebaran datanya cenderung tidak simetris dan berdistribusi miring kanan. Dari histogram dapat dilihat bahwa nilai pada variabel yang paling banyak berada di kisaran 140-159 dan nilai yang paling sedikit berada di rentang 240-260.
summary(x5)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 32.74 52.76 58.13 58.33 65.66 79.09
Variabel x5 memiliki nilai minimum 32.74, nilai tengah 58.13, nilai maksimum 79.09
b1<-(sum(x5*y)-sum(x5)*sum(y)/n)/(sum(x5^2)-(sum(x5)^2/n))
b1
## [1] -2.183482
b0<-mean(y)-b1*mean(x5)
b0
## [1] 297.0789
Didapatkan b1 sebesar -2.183482 yang menunjukkan bahwa kenaikan tiap satu satuan pada variabel x5 diduga berpengaruh terhadap rata-rata penurunan pada variabel y sebesar -2.183482. b0 sebesar 297.0789 menunjukkan bahwa terdapat nilai y sebesar 297.0789 yang tidak dapat dijelaskan oleh variabel x5.
r<-(sum(x5*y)-sum(x5)*sum(y)/n)/
sqrt((sum(x5^2)-(sum(x5)^2/n))*(sum(y^2)-(sum(y)^2/n)))
r
## [1] -0.7353813
Koef_det<-r^2
Koef_det
## [1] 0.5407857
Nilai korelasi sebesar -0.7353813 menunjukkan adanya hubungan negatif yang kuat antara kedua variabel. Nilai determinasi sebesar 0.5407857 menunjukkan bahwa ukuran keragaman pada variabel y disebabkan oleh variabel x5 sebesar 54.07857% dan selebihnya disebabkan oleh faktor lain selain variabel x5 yang diteliti.
Adj_R2<-1-((1-Koef_det)*(n-1)/(n-1-1))
Adj_R2
## [1] 0.5272794
galat<-y-(b0+b1*x5)
galat
## [1] -12.9433750 34.1332122 -5.1385588 -4.3061851 -23.9578168 -4.2878806
## [7] 11.1435882 -12.2430895 -11.0321178 16.9742497 2.2388257 2.0875314
## [13] 8.3582130 -22.7293982 -27.4412381 34.9316745 30.2326718 -34.8037410
## [19] 6.3068130 63.3389047 -13.4980636 -33.7334102 3.6366787 -12.5094118
## [25] -3.3472075 -4.8922570 -26.1031971 -7.8819951 -32.3686915 31.7992671
## [31] -3.8282079 21.8582985 0.8384834 33.0243553 4.5738049 -8.4307294
ragam_galat<-sum(galat^2)/(n-2)
ragam_galat
## [1] 511.8528
se_b1<-sqrt(ragam_galat/sum((x5-mean(x5))^2))
se_b1
## [1] 0.3450684
se_b0<-sqrt(ragam_galat*(1/n+mean(x5)^2/sum((x5-mean(x5))^2)))
se_b0
## [1] 20.47648
t_b0<-b0/se_b0
t_b0
## [1] 14.5083
t_b1<-b1/se_b1
t_b1
## [1] -6.327678
2*pt(-abs(t_b0 ),df<-n-2)
## [1] 3.965296e-16
2*pt(-abs(t_b1 ),df<-n-2)
## [1] 3.243599e-07
galat<-y-(b0+b1*x1)
JKG <- sum((y - (b0+b1*x5))^2)
JKReg <- sum(((b0+b1*x5)- mean(y))^2)
JKT <- sum((y - mean(y))^2)
JKT <- JKReg+JKG
dbReg<-1
dbg<-n-2
dbt<-n-1
Fhit<-(JKReg/dbReg)/(JKG/dbg)
Fhit
## [1] 40.03951
P.value<-1-pf(Fhit, dbReg, dbg, lower.tail <- F)
P.value
## [1] 3.243599e-07
P value yang didapatkan sangat kecil yaitu sebesar 3.243599e-07 hal ini menunjukkan bahwa terdapat perbedaan yang cukup siginifikan antara dua kelompok sebagai variabel.
model<-lm(y~x5,DataLiver<-DataLiver)
summary(model)
##
## Call:
## lm(formula = y ~ x5, data = DataLiver <- DataLiver)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.804 -12.618 -4.058 9.055 63.339
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 297.0789 20.4765 14.508 3.97e-16 ***
## x5 -2.1835 0.3451 -6.328 3.24e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.62 on 34 degrees of freedom
## Multiple R-squared: 0.5408, Adjusted R-squared: 0.5273
## F-statistic: 40.04 on 1 and 34 DF, p-value: 3.244e-07
anova(model)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x5 1 20494 20494.3 40.039 3.244e-07 ***
## Residuals 34 17403 511.9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dari kedua cara yang dilakukan didapatkan hasil yang sama dan valid dalam membuat pemodelan regresi linear sederhana.
Pemodelan regresi linear sederhana yang melihat hubungan antara variabel x5 dan y dapat dituliskan dengan y = 297.0789 - 2.183482x.