#Baca data

library(readxl)
data <- read.csv("D:/KULIAHH/SEMESTER 4/ANREG/data liver.csv", sep=";")
y<-data$Y
x1<-data$X1
x2<-data$X2
x3<-data$X3
x4<-data$X4 
x5<-data$X5
x6<-data$X6
data<-data.frame(cbind(y,x1,x2,x3,x4,x5,x6))
head(data)
##        y    x1    x2   x3    x4    x5   x6
## 1 158.76 16.36  8.90 3.47  6.02 57.42 1.11
## 2 197.19 26.68 21.22 3.53 12.07 61.38 1.36
## 3 144.73 12.49 16.62 2.00  8.88 67.42 1.47
## 4 140.06  8.45 22.86 6.71  7.46 69.94 1.31
## 5 129.71 10.19 14.23 4.75  2.06 65.68 1.25
## 6 162.59 19.53 17.35 1.95  7.54 59.63 1.14
n<-nrow(data)
n
## [1] 36
p<-ncol(data)
p
## [1] 7

#Eksplorasi data

plot(x3,y)

#Pola garis regresi yang akan terbentuk tidak baik karena ada dua data pencilan yang menjauh dari pusat kumpulan data (walau ketika dibentuk boxplot tidak terlihat sebagai pencilan seperti visualisasi di bawah)

summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   120.9   143.9   160.7   169.7   191.8   247.4
boxplot(y)

#Tanpa menggunakan fungsi lm untuk variabel x3

summary(x3)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.570   1.718   2.240   3.070   3.485  14.230

#Parameter regresi

b1<-(sum(x3*y)-sum(x3)*sum(y)/n)/(sum(x3^2)-(sum(x3)^2/n))
b1
## [1] 6.1812
b0<-mean(y)-b1*mean(x3)
b0
## [1] 150.7481

#Koefisien determinasi dan penyesuainnya

r<-(sum(x3*y)-sum(x3)*sum(y)/n)/
  sqrt((sum(x3^2)-(sum(x3)^2/n))*(sum(y^2)-(sum(y)^2/n)))
r
## [1] 0.5056415
Koef_det<-r^2
Koef_det
## [1] 0.2556733

#Nilai korelasi antara X3 dan Y adalah 0,5056 dan termasuk kategori sedang ##Koefisien determinasi sebesar 0,2557 atau 25,57% artinya variabel X3 menjelaskan Y sebesar 25,57% sisanya dipengaruhi oleh faktor lain

Adj_R2<-1-((1-Koef_det)*(n-1)/(n-1-1))
Adj_R2
## [1] 0.2337813

#Standard error parameter regresi

galat<-y-(b0+b1*x3)
ragam_galat<-sum(galat^2)/(n-2)
se_b1<-sqrt(ragam_galat/sum((x3-mean(x3))^2))
se_b1
## [1] 1.808725
se_b0<-sqrt(ragam_galat*(1/n+mean(x3)^2/sum((x3-mean(x3))^2)))
se_b0
## [1] 7.340623

#Signifikansi parameter (nilai-t)

t_b0<-b0/se_b0
t_b0
## [1] 20.53615
t_b1<-b1/se_b1
t_b1
## [1] 3.417436
2*pt(-abs(t_b0 ),df<-n-2)
## [1] 9.681334e-21
2*pt(-abs(t_b1 ),df<-n-2)
## [1] 0.001655981

#Ukuran keragaman

galat<-y-(b0+b1*x3)
JKG <- sum((y - (b0+b1*x3))^2)
JKG
## [1] 28208
JKReg <- sum(((b0+b1*x3)- mean(y))^2)
JKReg
## [1] 9689.336
JKT <- sum((y - mean(y))^2)
JKT
## [1] 37897.33
JKT <- JKReg+JKG
JKT
## [1] 37897.33
dbReg<-1
dbReg
## [1] 1
dbg<-n-2
dbg
## [1] 34
dbt<-n-1
dbt
## [1] 35
Fhit<-(JKReg/dbReg)/(JKG/dbg)
Fhit
## [1] 11.67887
P.value<-1-pf(Fhit, dbReg, dbg, lower.tail <- F)
P.value
## [1] 0.001655981

#Menggunakan fungsi lm untuk variabel x3

model<-lm(y~x3,data<-data)
summary(model)
## 
## Call:
## lm(formula = y ~ x3, data = data <- data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -56.118 -16.126  -0.349  15.294  63.382 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  150.748      7.341  20.536  < 2e-16 ***
## x3             6.181      1.809   3.417  0.00166 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.8 on 34 degrees of freedom
## Multiple R-squared:  0.2557, Adjusted R-squared:  0.2338 
## F-statistic: 11.68 on 1 and 34 DF,  p-value: 0.001656
anova(model)
## Analysis of Variance Table
## 
## Response: y
##           Df  Sum Sq Mean Sq F value   Pr(>F)   
## x3         1  9689.3  9689.3  11.679 0.001656 **
## Residuals 34 28208.0   829.6                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Penjelasan b0 dan b1 ##b0 = nilai dugaan rataan Y adalah 6.1812 ketika X bernilai 0 (hal ini tidak mungkin nol karena berasal dari denyut nadi pasien liver, sehingga kemungkinan denyut nadi di awal pemeriksaan sebelum terdiagnosa atau terperiksa) ###b1 = nilai dugaan perubahan dugaan rataan Y adalah 150.7481 ketika X berubah satu satuan (Ketika X berubah satu satuan, nilai Y berubah 150.7481)