A. Pertanyaan

Berikut ditampilkan data terkait ketebalan lipatan kulit trisep (Triceps), lingkar paha (Thigh), lingkar tengah lengan (MidArm) dan lemak tubuh (BodyFat) sejumlah responden yang dipilih secara acak (n=20)

DataOlah <- read.csv(file="DataOlah.csv", header=TRUE)
head(DataOlah)
Triceps Thigh MidArm BodyFat
19.5 43.1 29.1 11.9
24.7 49.8 28.2 22.8
30.7 51.9 37.0 18.7
29.8 54.3 31.1 20.1
19.1 42.2 30.9 12.9
25.6 53.9 23.7 21.7
  1. Cobakan model regresi!
  2. Periksa bagaimana masalah kolienaritas, pencilan, dan asumsi kehomogenan ragam dari model tersebut. Lakukan pemeriksaan secara intensif dan hitung statistik penting, seperti matriks korelasi, VIF, sisaan Studentized, ragam galat, dsb. Jangan lupa gambarkan grafik penting!
  3. Berikan solusi terhadap masalah yang ditemui dan tunjukkan apa solusi itu berhasil atau tidak.
  4. Bagaimana persamaan regresi yang terbaik menurut Saudara?

B. Pembahasan

1. Penyusunan Model Regresi Linear Berganda

Analisis regresi merupakan salah satu metode dalam ilmu statistik yang digunakan untuk melakukan prediksi ataupun melihat hubungan antara satu peubah terikat/respon dengan satu atau lebih peubah bebas/penjelas.

Dalam kasus ini akan ditampilkan model regresi linear berganda untuk melihat hubungan antara suatu peubah respon yaitu lemak tubuh (Yi BodyFat) dengan tiga peubah penjelas yaitu ketebalan lipatan kulit trisep (Xi1 Triceps), lingkar paha (Xi2 Thigh) dan lingkar tengah lengan (Xi3 MidArm).

Bentuk umum model regresi linear berganda adalah:

Dimana:

Untuk mengestimasi parameter regresi β1, β2, β3 maka digunakan fungsi berikut ini:

model1 <- lm(formula=BodyFat~Triceps+Thigh+MidArm,data=DataOlah)
summary(model1)
## 
## Call:
## lm(formula = BodyFat ~ Triceps + Thigh + MidArm, data = DataOlah)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7263 -1.6111  0.3923  1.4656  4.1277 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  117.085     99.782   1.173    0.258
## Triceps        4.334      3.016   1.437    0.170
## Thigh         -2.857      2.582  -1.106    0.285
## MidArm        -2.186      1.595  -1.370    0.190
## 
## Residual standard error: 2.48 on 16 degrees of freedom
## Multiple R-squared:  0.8014, Adjusted R-squared:  0.7641 
## F-statistic: 21.52 on 3 and 16 DF,  p-value: 7.343e-06

Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,8014. Nilai tersebut berarti bahwa tiga peubah penjelas Xi1 (lipatan kulit trisep), Xi2 (lingkar paha), dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 80,14%, sedangkan sisanya 19,86% dijelaskan oleh peubah lain di luar persamaan.

Apabila diamati dari output ANOVA di atas, nilai F sebesar 21,52 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan tiga peubah penjelas Xi1 (lipatan kulit trisep), Xi2 (lingkar paha), dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Berikut disajikan bentuk persamaan regresi linear dengan tiga peubah penjelas Xi1, Xi2, dan Xi3.

Interpretasi parameter β1, β2, β3 duga:

  1. Untuk β1 duga dapat diartikan bahwa setiap kenaikan 1 satuan ketebalan lipatan kulit trisep seseorang, akan diikuti oleh kenaikan sebanyak 4,33 satuan lemak tubuh.
  2. Untuk β2 duga dapat diartikan bahwa setiap kenaikan 1 satuan lingkar paha seseorang, akan diikuti oleh penurunan sebanyak 2,86 satuan lemak tubuh.
  3. Untuk β3 duga dapat diartikan bahwa setiap kenaikan 1 satuan lingkar tengah lengan seseorang, akan diikuti oleh penurunan sebanyak 2,19 satuan lemak tubuh.
summary.aov(model1)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Triceps      1  352.3   352.3  57.277 1.13e-06 ***
## Thigh        1   33.2    33.2   5.393   0.0337 *  
## MidArm       1   11.5    11.5   1.877   0.1896    
## Residuals   16   98.4     6.2                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dilihat dari signifikansi masing-masing parameter regresi, terlihat bahwa peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) memiliki hubungan yang signifikan dengan ukuran lemak tubuh seseorang pada tingkat kepercayaan 95%, sedangkan peubah lingkar tengah lengan (Xi3) belum cukup bukti untuk menyatakan ada hubungan yang signifikan dengan ukuran lemak tubuh seseorang.

2. Pemeriksaan Syarat dan Asumsi Model Regresi

Dalam melakukan analisis regresi, kita akan dihadapkan pada dua tujuan, yaitu apakah hanya akan melakukan prediksi melalui pembentukan model atau sampai pada tahapan inferensia. Jika kita ingin melakukan inferensia, khususnya dalam analisis regresi linear berganda diperlukan adanya pemeriksaan persyaratan multikolinearitas dan pemenuhan asumsi model regresi linear berganda.

a. Pemeriksaan Syarat “Nonmultikolinearitas”

Multikolinearitas merupakan kondisi saat peubah penjelas saling memiliki pola hubungan linear. Multikolinearitas terbagi menjadi multikolinearitas sempurna dan multikolinearitas tidak sempurna. Ciri-ciri adanya multikolienearitas adalah

1) Korelasi peubah penjelas tinggi

corrplot::corrplot(cor(DataOlah),method="number")

Berdasarkan nilai koefisien korelasi antar peubah penjelas di atas, terlihat bahwa terdapat hubungan linear yang kuat dan positif antara peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) yaitu sebesar 0,92. Hal ini menjadi salah satu indikasi adanya multikolinearitas antar peubah penjelasnya.

2) R2 tinggi, tetapi koefisian tidak signifikan dalam model

Berdasarkan olahan data sebelumnya, diperoleh nilai Multiple R-Squared adalah sebesar 0.8014. Nilai tersebut relatif tinggi, tetapi terdapat satu peubah penjelas dalam persamaan yang tidak berhubungan signifikan dengan peubah respon, yaitu peubah lingkar tengah lengan (Xi3). Hal ini dimungkinkan jika terdapat multikolinearitas antar peubah penjelas.

3) Nilai VIF (Variance Inflation Factor)-nya besar

fit <- lm(BodyFat~.,data=DataOlah)
car::vif(fit)
##  Triceps    Thigh   MidArm 
## 708.8429 564.3434 104.6060

VIF mengukur sejauh mana multikolinearitas telah meningkatkan varians dari koefisien yang diestimasi. Berdasarkan output di atas, terlihat bahwa nilai VIF masing-masing peubah penjelas sangat tinggi (VIF > 5). Hal ini mengindikasikan adanya gejala multikolinearitas dalam model regresi tersebut.

Apabila kita tetap memaksakan membentuk suatu model regresi dengan adanya gejala multikolinearitas antar peubah penjelas, akan berdampak pada terjadinya bias ragam dari koefisien yang diestimasi. Lebih jauh, akan berdampak pada kesalahan dalam pengambilan keputusan saat melakukan tahapan inferensia statistik pada persamaan regresi yang terbentuk.

b. Pemeriksaan Asumsi Model Regresi Linear Berganda

1) Asumsi Linearitas

Uji linearitas bertujuan untuk mengetahui apakah dua variabel mempunyai hubungan yang linear atau tidak secara signifikan. Jika tidak signifikan, artinya hubungan tidak linear, residu tidak normal, secara tak langsung juga melanggar asumsi normalitas.

Terpenuhi/tidaknya asumsi linearitas, salah satunya dapat diamati langsung melalui plot antara masing-masing peubah penjelas dengan peubah respon. Dari plot terlihat bahwa masing-masing peubah penjelas memiliki hubungan linear dengan peubah respon (lemak tubuh). Akan tetapi, plot antara lingkar tengah lengan ((Xi3) vs lemak tubuh (Yi) menunjukkan hubungan linear yang tidak kuat.

Selain plot di atas, pemenuhan asumsi linearitas dapat dilihat melalui plot antara fitted values vs residual. Dari plot tersebut, data cenderung menyebar merata di sekitar titik nol atau tidak membentuk pola tertentu. Hal tersebut menandakan bahwa asumsi linearitas TERPENUHI untuk model regresi dengan tiga peubah penjelas ini.

par(mfrow=c(2,2))
plot(model1)

2) Asumsi Kebebasan Ragam (Independensi)

Asumsi kebebasan ragam otomatis terpenuhi apabila data diperoleh dari responden yang dipilih secara acak (random) dengan teknik probability sampling. Karena dalam kasus ini tidak dinyatakan terkait cara pemilihan responde, kita perlu mengamati plot antara residual vs fitted values atau antara standardized residual vs fitted values. Plot tersebut menunjukkan bahwa ragam galat cenderung menyebar merata di sekitar titik nol dan tidak membentuk pola tertentu. Dengan demikian, asumsi independensi ragam galat TERPENUHI.

Pengamatan terhadap plot cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi independensi ragam galat.

H0 : Ragam galat independen

H1 : Ragam galat tidak independen

Asumsi kebebasan ragam erat kaitannya dengan permasalahan autokeralsi. Autokorelasi adalah korelasi antara anggota serangkaian observasi yang diurutkan menurut waktu seperti data deret waktu atau ruang seperti data cross-section. Autokorelasi yang kuat dapat menyebabkan dua variabel yang tidak berhubungan menjadi berhubungan.

Jika terjadi autokorelasi maka perasamaan tersebut menjadi tidak baik atau tidak layak dipakai prediksi. Ukuran dalam menentukan ada tidaknya masalah autokorelasi dengan uji Durbin-Watson (DW), dengan ketentuan sebagai berikut:

  • Terjadi autokorelasi positif jika DW di bawah -2 (DW < -2).

  • Tidak terjadi autokorelasi jika DW berada di antara -2 dan +2 atau -2 < DW +2

dwtest(model1, alternative = "two.sided")
## 
##  Durbin-Watson test
## 
## data:  model1
## DW = 2.2429, p-value = 0.6603
## alternative hypothesis: true autocorrelation is not 0

Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak independen, atau dengan kata lain asumsi kebebasan ragam TERPENUHI.

3) Asumsi Kehomogenan Ragam (Homogenitas)

Dalam regresi linear salah satu yang harus dipenuhi agar taksiran parameter dalam model tersebut bersifat BLUE (Best, Linear, Unbiased, and Estimator), dimana var (ui) = σ2 mempunyai variasi yang sama. Pada kasus-kasus tertentu terjadi variasi ui tidak konstan atau variabel berubah-ubah. Untuk mendeteksi heteroskedastisitas dapat dilakukan pengujian dengan metode grafik.

Serupa dengan pemeriksaan asumsi kebebasan ragam, asumsi kehomogenan ragam juga dapat diamati melalui plot antara residual vs fitted values atau antara standardized residual vs fitted values. Karena pola sebaran data terhadap residual maupun standardized residual menyebar merata di sekitar titik nol, maka asumsi kehomogenan ragam TERPENUHI.

Pengamatan terhadap plot cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi kehomogean ragam galat.

H0 : Ragam galat homogen

H1 : Ragam galat tidak homogen

bptest(model1)
## 
##  studentized Breusch-Pagan test
## 
## data:  model1
## BP = 5.1452, df = 3, p-value = 0.1615

Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak homogen, atau dengan kata lain asumsi kehomogenan ragam TERPENUHI.

4) Asumsi Kenormalan (Normalitas)

Uji normalitas bertujuan untuk menguji apakah dalam model regresi, peubah penggangu atau residual memiliki distribusi normal. Jika asumsi ini dilanggar, maka uji statistik menjadi tidak valid atau bias terutama untuk sampel kecil. Uji normalitas dapat dilakukan melalui dua pendekatan yaitu melalui pendekatan grafik (histogram dan P-P Plot) atau uji kolmogorov-smirnov, chi-square, Liliefors maupun Shapiro-Wilk.

Dengan pendekatan grafik normal Q-Q Plot, terlihat bahwa data menyebar merata di sekitar garis lurus, sehingga dapat disimpulkan bahwa asumsi kenormalan TERPENUHI.

Pemeriksaan asumsi dengan pendekatan grafik cenderung subjektif, sehingga berikut akan disajikan hasil pengujian asumsi kenormalan galat.

H0 : Ragam galat berdistribusi normal

H1 : Ragam galat tidak berdistribusi normal

shapiro.test(residuals(model1))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model1)
## W = 0.96603, p-value = 0.6698

Dengan tingkat kepercayaan 95%, disimpulkan belum cukup bukti untuk menyatakan bahwa ragam galat tidak berdistribusi normal, atau dengan kata lain asumsi kenormalan ragam galat TERPENUHI.

c. Pemeriksaan Outlier dan Titik Pengungkit (High Leverage Point)

Outlier menggambarkan ketidakkonsistenan suatu amatan dengan amatan lainnya karena nilainya terletak sangat jauh (ekstrim) dengan kelompok data. Terdapat dua jenis outlier, yaitu outlier pada Y dan outlier pada X yang dikenal dengan istilah titik pengungkit (high leverage point). Outlier yang merupakan titik pengungkit dapat menggangu model, mengecilkan sisaan dan meningkatkan R2.

fit2 <- lm(formula=BodyFat~Triceps+Thigh+MidArm,data=DataOlah)
h <- 3*(4)/nrow(DataOlah)
H <- sort(hatvalues(fit2),decreasing = T)
hasil <- c(H>h)
hasil[1:20]
##     3     5    15     1    10    18    13     7     9    14     8     2    11 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##    19     6    17    16     4    12    20 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE

Berdasarkan hasil di atas, terlihat bahwa tidak ada amatan yang teridentifikasi sebagai pencilan.

3. Solusi Atas Permasalahan Model Regresi Linear Berganda

Berdasarkan point. 2, diketahui bahwa seluruh asumsi dalam pembentukan model regresi linear terbaik telah TERPENUHI, akan tetapi terdapat permasalahan MULTIKOLINEARITAS, sebagai persyaratan utama yang harus terpenuhi saat melakukan inferensia statistik agar tidak terdapat bias ragam, yang lebih jauh akan berdampak pada kebiasan dalam pengambilan keputusan.

Ada beberapa cara untuk mengatasi multikolinearitas, yaitu: (i) buang peubah yang kolinear, (ii) transformasi peubah yang kolinear menjadi peubah baru, atau (iii) menambah ukuran contoh.

Dalam kasus ini, karena terdapat kolinear yang tinggi antara peubah ketebalan lipatan kulit trisep (Xi1) dan ukuran lingkar paha (Xi2) yaitu sebesar 0,92, sehingga berikut akan dilakukan simulasi untuk mereduksi salah satu dari kedua peubah penjelas tersebut dari model.

(i) Mereduksi peubah ukuran lingkar paha (Xi2)

fit3 <- lm(BodyFat~.-Thigh,data=DataOlah)
car::vif(fit3)
##  Triceps   MidArm 
## 1.265118 1.265118

(ii) Mereduksi peubah ketebalan lipatan kulit trisep (Xi1)

fit4 <- lm(BodyFat~.-Triceps,data=DataOlah)
car::vif(fit4)
##   Thigh  MidArm 
## 1.00722 1.00722

Dari kedua simulasi di atas, terlihat bahwa setelah melakukan reduksi terhadap salah satu peubah yang kolinear, masalah multikolinearitas dapat teratasi. Nilai VIF yang terkecil adalah saat dilakukan pereduksian data atas peubah ketebalan lipatan kulit trisep (Xi1).

4. Persamaan Regresi Terbaik

Setelah mampu mengatasi masalah multikolinearitas, langkah selanjutnya adalah memilih model regresi terbaik.

1) Uji Ketidaksesuaian Model (Lack of Fit Test)

Uji ini adalah uji formal untuk menentukan apakah sebuah fungsi regresi cukup fit pada data atau apakah fungsi linier fit dengan baik untuk data.  Uji ini mengasumsikan bahwa observasi Y adalah independent, berdistribusi normal, dan mempunyai varians yang sama s2

H0 : E(Y) = b0 + b2Xi2 + b3Xi3

H1 : E(Y) ≠ b0 + b2Xi2 + b3Xi3

#fit full model
full <- lm(BodyFat~.,data=DataOlah)
#fit reduced model1
fit3 <- lm(BodyFat~.-Triceps,data=DataOlah)
#lack of fit test
anova(full,fit3)
Res.Df RSS Df Sum of Sq F Pr(>F)
16 98.40489 NA NA NA NA
17 111.10978 -1 -12.70489 2.065734 0.1699111

H0 : E(Y) = b0 + b1Xi1 + b3Xi3

H1 : E(Y) ≠ b0 + b1Xi1 + b3Xi3

#fit full model
full <- lm(BodyFat~.,data=DataOlah)
#fit reduced model2
fit4 <- lm(BodyFat~.-Thigh,data=DataOlah)
#lack of fit test
anova(full,fit4)
Res.Df RSS Df Sum of Sq F Pr(>F)
16 98.40489 NA NA NA NA
17 105.93417 -1 -7.529278 1.224212 0.2848944

Berdasarkan kedua hasil uji hipotesis di atas, dapat dikatakan belum cukup bukti untuk menyatakan bahwa model dengan pereduksian salah satu peubah penjelas bukan model regresi yang FIT atau dengan kata lain, model dengan pereduksian salah satu peubah yang saling berkorelasi adalah lebih baik daripada model yang melibatkan semua peubah penjelas (full model).

2) Pemilihan Model Terbaik

a. Model Regresi dengan mereduksi peubah ketebalan lipatan kulit trisep (Xi1)

model2 <- lm(formula=BodyFat~Thigh+MidArm,data=DataOlah)
summary(model2)
## 
## Call:
## lm(formula = BodyFat ~ Thigh + MidArm, data = DataOlah)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.0777 -1.8296  0.1893  1.3545  4.1275 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -25.99695    6.99732  -3.715  0.00172 ** 
## Thigh         0.85088    0.11245   7.567 7.72e-07 ***
## MidArm        0.09603    0.16139   0.595  0.55968    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.557 on 17 degrees of freedom
## Multiple R-squared:  0.7757, Adjusted R-squared:  0.7493 
## F-statistic:  29.4 on 2 and 17 DF,  p-value: 3.033e-06

Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,7757. Nilai tersebut berarti bahwa dua peubah penjelas Xi2 (lingkar paha) dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 77,57%, sedangkan sisanya 22,43% dijelaskan oleh peubah lain di luar persamaan.

Apabila diamati dari output ANOVA di atas, nilai F sebesar 29,4 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan dua peubah penjelas Xi2 (lingkar paha) dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Akan tetapi, peubah Xi3 (lingkar tengah lengan) tidak signifikan memiliki hubungan dengan peubah respon Yi (ukuran lemak tubuh).

b. Model Regresi dengan mereduksi peubah lingkar paha (Xi2)

model3 <- lm(formula=BodyFat~Triceps+MidArm,data=DataOlah)
summary(model3)
## 
## Call:
## lm(formula = BodyFat ~ Triceps + MidArm, data = DataOlah)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.8794 -1.9627  0.3811  1.2688  3.8942 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   6.7916     4.4883   1.513   0.1486    
## Triceps       1.0006     0.1282   7.803 5.12e-07 ***
## MidArm       -0.4314     0.1766  -2.443   0.0258 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.496 on 17 degrees of freedom
## Multiple R-squared:  0.7862, Adjusted R-squared:  0.761 
## F-statistic: 31.25 on 2 and 17 DF,  p-value: 2.022e-06

Berdasarkan output olahan data di atas, diperoleh nilai Multiple R-Squared sebesar 0,7862. Nilai tersebut berarti bahwa dua peubah penjelas Xi1 (ketebalan lipatan kulit trisep) dan Xi3 (lingkar tengah lengan) dapat menerangkan peubah respon Yi (ukuran lemak tubuh) sebesar 78,62%, sedangkan sisanya 21,38% dijelaskan oleh peubah lain di luar persamaan.

Apabila diamati dari output ANOVA di atas, nilai F sebesar 31,25 dengan signfikansi 0,0000 yang artinya bahwa persamaan yang secara simultan melibatkan dua peubah penjelas Xi1 (ketebalan lipatan kulit trisep) dan Xi3 (lingkar tengah lengan) sudah tepat dan dapat digunakan. Selain signifikan secara simultan, kedua peubah penjelas tersebut juga signifikan secara parsial terhadap peubah respon Yi (ukuran lemak tubuh). Fenomena ini tidak ditemui pada model regresi penuh dan model regresi yang mereduksi peubah penjelas Xi1 (ketebalan lipatan kulit trisep).

Dengan demikian dapat disimpulkan bahwa persamaan regresi terbaik yang mampu menggambarkan peubah respon Yi (ukuran lemak tubuh), baik secara simultan maupun secara parsial adalah Persamaan Regresi 3:

Interpretasi parameter β1 dan β3 duga:

  1. Untuk β1 duga dapat diartikan bahwa setiap kenaikan 1 satuan ketebalan lipatan kulit trisep seseorang, akan diikuti oleh kenaikan sebanyak 1,001 satuan lemak tubuh.
  2. Untuk β3 duga dapat diartikan bahwa setiap kenaikan 1 satuan lingkar tengah lengan seseorang, akan diikuti oleh penurunan sebanyak 0,431 satuan lemak tubuh.

  1. IPB University-Prodi Statistika dan Sains Data 2021↩︎