Berikut ditampilkan data terkait ketebalan lipatan kulit trisep
(Triceps
), lingkar paha (Thigh
), lingkar
tengah lengan (MidArm
) dan lemak tubuh
(BodyFat
) sejumlah responden yang dipilih secara acak
(n=20)
<- read.csv(file="DataOlah.csv", header=TRUE)
DataOlah head(DataOlah)
Triceps | Thigh | MidArm | BodyFat |
---|---|---|---|
19.5 | 43.1 | 29.1 | 11.9 |
24.7 | 49.8 | 28.2 | 22.8 |
30.7 | 51.9 | 37.0 | 18.7 |
29.8 | 54.3 | 31.1 | 20.1 |
19.1 | 42.2 | 30.9 | 12.9 |
25.6 | 53.9 | 23.7 | 21.7 |
Analisis regresi merupakan salah satu metode dalam ilmu statistik yang digunakan untuk melakukan prediksi ataupun melihat hubungan antara satu peubah terikat/respon dengan satu atau lebih peubah bebas/penjelas.
Dalam kasus ini akan ditampilkan model regresi linear berganda untuk
melihat hubungan antara suatu peubah respon yaitu lemak tubuh
(Yi BodyFat
) dengan tiga peubah
penjelas yaitu ketebalan lipatan kulit trisep
(Xi1 Triceps
), lingkar paha
(Xi2 Thigh
) dan lingkar tengah
lengan (Xi3 MidArm
).
Bentuk umum model regresi linear berganda adalah:
Dimana:
Untuk mengestimasi parameter regresi β1, β2, β3 maka digunakan fungsi berikut ini:
<- lm(formula=BodyFat~Triceps+Thigh+MidArm,data=DataOlah)
model1 summary(model1)
##
## Call:
## lm(formula = BodyFat ~ Triceps + Thigh + MidArm, data = DataOlah)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.7263 -1.6111 0.3923 1.4656 4.1277
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 117.085 99.782 1.173 0.258
## Triceps 4.334 3.016 1.437 0.170
## Thigh -2.857 2.582 -1.106 0.285
## MidArm -2.186 1.595 -1.370 0.190
##
## Residual standard error: 2.48 on 16 degrees of freedom
## Multiple R-squared: 0.8014, Adjusted R-squared: 0.7641
## F-statistic: 21.52 on 3 and 16 DF, p-value: 7.343e-06
Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,8014. Nilai tersebut berarti bahwa tiga peubah penjelas Xi1 (lipatan kulit trisep), Xi2 (lingkar paha), dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 80,14%, sedangkan sisanya 19,86% dijelaskan oleh peubah lain di luar persamaan.
Apabila diamati dari output ANOVA di atas, nilai F sebesar 21,52 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan tiga peubah penjelas Xi1 (lipatan kulit trisep), Xi2 (lingkar paha), dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Berikut disajikan bentuk persamaan regresi linear dengan tiga peubah penjelas Xi1, Xi2, dan Xi3.
Interpretasi parameter β1, β2, β3 duga:
summary.aov(model1)
## Df Sum Sq Mean Sq F value Pr(>F)
## Triceps 1 352.3 352.3 57.277 1.13e-06 ***
## Thigh 1 33.2 33.2 5.393 0.0337 *
## MidArm 1 11.5 11.5 1.877 0.1896
## Residuals 16 98.4 6.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dilihat dari signifikansi masing-masing parameter regresi, terlihat bahwa peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) memiliki hubungan yang signifikan dengan ukuran lemak tubuh seseorang pada tingkat kepercayaan 95%, sedangkan peubah lingkar tengah lengan (Xi3) belum cukup bukti untuk menyatakan ada hubungan yang signifikan dengan ukuran lemak tubuh seseorang.
Dalam melakukan analisis regresi, kita akan dihadapkan pada dua tujuan, yaitu apakah hanya akan melakukan prediksi melalui pembentukan model atau sampai pada tahapan inferensia. Jika kita ingin melakukan inferensia, khususnya dalam analisis regresi linear berganda diperlukan adanya pemeriksaan persyaratan multikolinearitas dan pemenuhan asumsi model regresi linear berganda.
Multikolinearitas merupakan kondisi saat peubah penjelas saling memiliki pola hubungan linear. Multikolinearitas terbagi menjadi multikolinearitas sempurna dan multikolinearitas tidak sempurna. Ciri-ciri adanya multikolienearitas adalah
::corrplot(cor(DataOlah),method="number") corrplot
Berdasarkan nilai koefisien korelasi antar peubah penjelas di atas, terlihat bahwa terdapat hubungan linear yang kuat dan positif antara peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) yaitu sebesar 0,92. Hal ini menjadi salah satu indikasi adanya multikolinearitas antar peubah penjelasnya.
Berdasarkan olahan data sebelumnya, diperoleh nilai Multiple R-Squared adalah sebesar 0.8014. Nilai tersebut relatif tinggi, tetapi terdapat satu peubah penjelas dalam persamaan yang tidak berhubungan signifikan dengan peubah respon, yaitu peubah lingkar tengah lengan (Xi3). Hal ini dimungkinkan jika terdapat multikolinearitas antar peubah penjelas.
<- lm(BodyFat~.,data=DataOlah)
fit ::vif(fit) car
## Triceps Thigh MidArm
## 708.8429 564.3434 104.6060
VIF mengukur sejauh mana multikolinearitas telah meningkatkan varians dari koefisien yang diestimasi. Berdasarkan output di atas, terlihat bahwa nilai VIF masing-masing peubah penjelas sangat tinggi (VIF > 5). Hal ini mengindikasikan adanya gejala multikolinearitas dalam model regresi tersebut.
Apabila kita tetap memaksakan membentuk suatu model regresi dengan adanya gejala multikolinearitas antar peubah penjelas, akan berdampak pada terjadinya bias ragam dari koefisien yang diestimasi. Lebih jauh, akan berdampak pada kesalahan dalam pengambilan keputusan saat melakukan tahapan inferensia statistik pada persamaan regresi yang terbentuk.
Uji linearitas bertujuan untuk mengetahui apakah dua variabel mempunyai hubungan yang linear atau tidak secara signifikan. Jika tidak signifikan, artinya hubungan tidak linear, residu tidak normal, secara tak langsung juga melanggar asumsi normalitas.
Terpenuhi/tidaknya asumsi linearitas, salah satunya dapat diamati langsung melalui plot antara masing-masing peubah penjelas dengan peubah respon. Dari plot terlihat bahwa masing-masing peubah penjelas memiliki hubungan linear dengan peubah respon (lemak tubuh). Akan tetapi, plot antara lingkar tengah lengan ((Xi3) vs lemak tubuh (Yi) menunjukkan hubungan linear yang tidak kuat.
Selain plot di atas, pemenuhan asumsi linearitas dapat dilihat melalui plot antara fitted values vs residual. Dari plot tersebut, data cenderung menyebar merata di sekitar titik nol atau tidak membentuk pola tertentu. Hal tersebut menandakan bahwa asumsi linearitas TERPENUHI untuk model regresi dengan tiga peubah penjelas ini.
par(mfrow=c(2,2))
plot(model1)
Asumsi kebebasan ragam otomatis terpenuhi apabila data diperoleh dari responden yang dipilih secara acak (random) dengan teknik probability sampling. Karena dalam kasus ini tidak dinyatakan terkait cara pemilihan responde, kita perlu mengamati plot antara residual vs fitted values atau antara standardized residual vs fitted values. Plot tersebut menunjukkan bahwa ragam galat cenderung menyebar merata di sekitar titik nol dan tidak membentuk pola tertentu. Dengan demikian, asumsi independensi ragam galat TERPENUHI.
Pengamatan terhadap plot cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi independensi ragam galat.
H0 : Ragam galat independen
H1 : Ragam galat tidak independen
Asumsi kebebasan ragam erat kaitannya dengan permasalahan autokeralsi. Autokorelasi adalah korelasi antara anggota serangkaian observasi yang diurutkan menurut waktu seperti data deret waktu atau ruang seperti data cross-section. Autokorelasi yang kuat dapat menyebabkan dua variabel yang tidak berhubungan menjadi berhubungan.
Jika terjadi autokorelasi maka perasamaan tersebut menjadi tidak baik atau tidak layak dipakai prediksi. Ukuran dalam menentukan ada tidaknya masalah autokorelasi dengan uji Durbin-Watson (DW), dengan ketentuan sebagai berikut:
Terjadi autokorelasi positif jika DW di bawah -2 (DW < -2).
Tidak terjadi autokorelasi jika DW berada di antara -2 dan +2 atau -2 < DW +2
dwtest(model1, alternative = "two.sided")
##
## Durbin-Watson test
##
## data: model1
## DW = 2.2429, p-value = 0.6603
## alternative hypothesis: true autocorrelation is not 0
Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak independen, atau dengan kata lain asumsi kebebasan ragam TERPENUHI.
Dalam regresi linear salah satu yang harus dipenuhi agar taksiran parameter dalam model tersebut bersifat BLUE (Best, Linear, Unbiased, and Estimator), dimana var (ui) = σ2 mempunyai variasi yang sama. Pada kasus-kasus tertentu terjadi variasi ui tidak konstan atau variabel berubah-ubah. Untuk mendeteksi heteroskedastisitas dapat dilakukan pengujian dengan metode grafik.
Serupa dengan pemeriksaan asumsi kebebasan ragam, asumsi kehomogenan ragam juga dapat diamati melalui plot antara residual vs fitted values atau antara standardized residual vs fitted values. Karena pola sebaran data terhadap residual maupun standardized residual menyebar merata di sekitar titik nol, maka asumsi kehomogenan ragam TERPENUHI.
Pengamatan terhadap plot cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi kehomogean ragam galat.
H0 : Ragam galat homogen
H1 : Ragam galat tidak homogen
bptest(model1)
##
## studentized Breusch-Pagan test
##
## data: model1
## BP = 5.1452, df = 3, p-value = 0.1615
Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak homogen, atau dengan kata lain asumsi kehomogenan ragam TERPENUHI.
Uji normalitas bertujuan untuk menguji apakah dalam model regresi, peubah penggangu atau residual memiliki distribusi normal. Jika asumsi ini dilanggar, maka uji statistik menjadi tidak valid atau bias terutama untuk sampel kecil. Uji normalitas dapat dilakukan melalui dua pendekatan yaitu melalui pendekatan grafik (histogram dan P-P Plot) atau uji kolmogorov-smirnov, chi-square, Liliefors maupun Shapiro-Wilk.
Dengan pendekatan grafik normal Q-Q Plot, terlihat bahwa data menyebar merata di sekitar garis lurus, sehingga dapat disimpulkan bahwa asumsi kenormalan TERPENUHI.
Pemeriksaan asumsi dengan pendekatan grafik cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi kenormalan galat.
H0 : Ragam galat berdistribusi normal
H1 : Ragam galat tidak berdistribusi normal
shapiro.test(residuals(model1))
##
## Shapiro-Wilk normality test
##
## data: residuals(model1)
## W = 0.96603, p-value = 0.6698
Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak berdistribusi normal, atau dengan kata lain asumsi kenormalan ragam galat TERPENUHI.
Outlier menggambarkan ketidakkonsistenan suatu amatan dengan amatan lainnya karena nilainya terletak sangat jauh (ekstrim) dengan kelompok data. Terdapat dua jenis outlier, yaitu outlier pada Y dan outlier pada X yang dikenal dengan istilah titik pengungkit (high leverage point). Outlier yang merupakan titik pengungkit dapat menggangu model, mengecilkan sisaan dan meningkatkan R2.
<- lm(formula=BodyFat~Triceps+Thigh+MidArm,data=DataOlah)
fit2 <- 3*(4)/nrow(DataOlah)
h <- sort(hatvalues(fit2),decreasing = T)
H <- c(H>h)
hasil 1:20] hasil[
## 3 5 15 1 10 18 13 7 9 14 8 2 11
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 19 6 17 16 4 12 20
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE
Berdasarkan hasil di atas, terlihat bahwa tidak ada amatan yang teridentifikasi sebagai pencilan.
Berdasarkan point. 2, diketahui bahwa seluruh asumsi dalam pembentukan model regresi linear terbaik telah TERPENUHI, akan tetapi terdapat permasalahan MULTIKOLINEARITAS, sebagai persyaratan utama yang harus terpenuhi saat melakukan inferensia statistik agar tidak terdapat bias ragam, yang lebih jauh akan berdampak pada kebiasan dalam pengambilan keputusan.
Ada beberapa cara untuk mengatasi multikolinearitas, yaitu: (i) buang peubah yang kolinear, (ii) transformasi peubah yang kolinear menjadi peubah baru, atau (iii) menambah ukuran contoh.
Dalam kasus ini, karena terdapat kolinear yang tinggi antara peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) yaitu sebesar 0,92, sehingga berikut akan dilakukan simulasi untuk mereduksi salah satu dari kedua peubah penjelas tersebut dari model.
<- lm(BodyFat~.-Thigh,data=DataOlah)
fit3 ::vif(fit3) car
## Triceps MidArm
## 1.265118 1.265118
<- lm(BodyFat~.-Triceps,data=DataOlah)
fit4 ::vif(fit4) car
## Thigh MidArm
## 1.00722 1.00722
Dari kedua simulasi di atas, terlihat bahwa setelah melakukan reduksi terhadap salah satu peubah yang kolinear, masalah multikolinearitas dapat teratasi. Nilai VIF yang terkecil adalah saat dilakukan pereduksian data atas peubah ketebalan lipatan kulit trisep (Xi1).
Setelah mampu mengatasi masalah multikolinearitas, langkah selanjutnya adalah memilih model regresi terbaik.
Uji ini adalah uji formal untuk menentukan apakah sebuah fungsi regresi cukup fit pada data atau apakah fungsi linier fit dengan baik untuk data. Uji ini mengasumsikan bahwa observasi Y adalah independent, berdistribusi normal, dan mempunyai varians yang sama s2.
H0 : E(Y) = b0 + b2Xi2 + b3Xi3
H1 : E(Y) ≠ b0 + b2Xi2 + b3Xi3
#fit full model
<- lm(BodyFat~.,data=DataOlah)
full #fit reduced model1
<- lm(BodyFat~.-Triceps,data=DataOlah)
fit3 #lack of fit test
anova(full,fit3)
Res.Df | RSS | Df | Sum of Sq | F | Pr(>F) |
---|---|---|---|---|---|
16 | 98.40489 | NA | NA | NA | NA |
17 | 111.10978 | -1 | -12.70489 | 2.065734 | 0.1699111 |
H0 : E(Y) = b0 + b1Xi1 + b3Xi3
H1 : E(Y) ≠ b0 + b1Xi1 + b3Xi3
#fit full model
<- lm(BodyFat~.,data=DataOlah)
full #fit reduced model2
<- lm(BodyFat~.-Thigh,data=DataOlah)
fit4 #lack of fit test
anova(full,fit4)
Res.Df | RSS | Df | Sum of Sq | F | Pr(>F) |
---|---|---|---|---|---|
16 | 98.40489 | NA | NA | NA | NA |
17 | 105.93417 | -1 | -7.529278 | 1.224212 | 0.2848944 |
Berdasarkan kedua hasil uji hipotesis di atas, dapat dikatakan belum cukup bukti untuk menyatakan bahwa model dengan pereduksian salah satu peubah penjelas bukan model regresi yang FIT atau dengan kata lain, model dengan pereduksian salah satu peubah yang saling berkorelasi adalah lebih baik daripada model yang melibatkan semua peubah penjelas (full model).
<- lm(formula=BodyFat~Thigh+MidArm,data=DataOlah)
model2 summary(model2)
##
## Call:
## lm(formula = BodyFat ~ Thigh + MidArm, data = DataOlah)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.0777 -1.8296 0.1893 1.3545 4.1275
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -25.99695 6.99732 -3.715 0.00172 **
## Thigh 0.85088 0.11245 7.567 7.72e-07 ***
## MidArm 0.09603 0.16139 0.595 0.55968
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.557 on 17 degrees of freedom
## Multiple R-squared: 0.7757, Adjusted R-squared: 0.7493
## F-statistic: 29.4 on 2 and 17 DF, p-value: 3.033e-06
Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,7757. Nilai tersebut berarti bahwa dua peubah penjelas Xi2 (lingkar paha) dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 77,57%, sedangkan sisanya 22,43% dijelaskan oleh peubah lain di luar persamaan.
Apabila diamati dari output ANOVA di atas, nilai F sebesar 29,4 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan dua peubah penjelas Xi2 (lingkar paha) dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Akan tetapi, peubah Xi3 (lingkar tengah lengan) tidak signifikan memiliki hubungan dengan peubah respon Yi (ukuran lemak tubuh).
<- lm(formula=BodyFat~Triceps+MidArm,data=DataOlah)
model3 summary(model3)
##
## Call:
## lm(formula = BodyFat ~ Triceps + MidArm, data = DataOlah)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8794 -1.9627 0.3811 1.2688 3.8942
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.7916 4.4883 1.513 0.1486
## Triceps 1.0006 0.1282 7.803 5.12e-07 ***
## MidArm -0.4314 0.1766 -2.443 0.0258 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.496 on 17 degrees of freedom
## Multiple R-squared: 0.7862, Adjusted R-squared: 0.761
## F-statistic: 31.25 on 2 and 17 DF, p-value: 2.022e-06
Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,7862. Nilai tersebut berarti bahwa dua peubah penjelas Xi1 (ketebalan lipatan kulit trisep) dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 78,62%, sedangkan sisanya 21,38% dijelaskan oleh peubah lain di luar persamaan.
Apabila diamati dari output ANOVA di atas, nilai F sebesar 31,25 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan dua peubah penjelas Xi1 (ketebalan lipatan kulit trisep) dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Selain signifikan secara simultan, kedua peubah penjelas tersebut juga signifikan secara parsial terhadap peubah respon Yi (ukuran lemak tubuh). Fenomena ini tidak ditemui pada model regresi penuh dan model regresi yang mereduksi peubah penjelas Xi1 (ketebalan lipatan kulit trisep).
Dengan demikian dapat disimpulkan bahwa persamaan regresi terbaik yang mampu menggambarkan peubah respon Yi (ukuran lemak tubuh), baik secara simultan maupun secara parsial adalah Persamaan Regresi 3:
Interpretasi parameter β1 dan β3 duga:
IPB University-Prodi Statistika dan Sains Data 2021↩︎