PERBANDINGAN MODEL REGRESI SEDERHANA DAN BERGANDA PADA UJI ASUMSI

Fit Model

Model 1: Sederhana

model1 <- lm(mpg ~ hp, data = mtcars)
summary(model1)

## 
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
## hp          -0.06823    0.01012  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

Model 2: Berganda

model2 <- lm(mpg ~ hp + wt, data = mtcars)
summary(model2)

## 
## Call:
## lm(formula = mpg ~ hp + wt, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.941 -1.600 -0.182  1.050  5.854 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.22727    1.59879  23.285  < 2e-16 ***
## hp          -0.03177    0.00903  -3.519  0.00145 ** 
## wt          -3.87783    0.63273  -6.129 1.12e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.593 on 29 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8148 
## F-statistic: 69.21 on 2 and 29 DF,  p-value: 9.109e-12

Uji Asumsi

Untuk dapat melakukan kita harus memanggil package lmtest terlebih dahulu. lmtest adalah package di R yang berisi berbagai fungsi untuk melakukan uji asumsi dan uji hipotesis pada model regresi (linear maupun non-linear).

Uji Linearitas

Model 1

# Ramsey RESET test
resettest(model1, power = 2:3)

## 
##  RESET test
## 
## data:  model1
## RESET = 9.2467, df1 = 2, df2 = 28, p-value = 0.0008255

# Plot residual vs fitted
plot(model1, which = 1)

Model 2

# Ramsey RESET test
resettest(model2, power = 2:3)

## 
##  RESET test
## 
## data:  model2
## RESET = 7.2384, df1 = 2, df2 = 27, p-value = 0.003041

# Plot residual vs fitted
plot(model2, which = 1)

Perbandingan Model 1 dan Model 2

1. RESET Test

H0 : Model regresi sudah ter-spesifikasi dengan benar. → bentuk hubungan linear sudah cukup, tidak ada variabel penting yang terlewat, tidak ada kesalahan bentuk fungsi.

H1 : Model regresi salah spesifikasi. → bisa karena hubungan sebenarnya tidak linear, ada variabel penting yang ketinggalan, atau model kurang fleksibel.

Dalam uji, didapatkan bahwa:

Model 1 (mpg ~ hp): p-value = 0.0008 < 0.05 → tolak HO → ada indikasi spesifikasi model salah (misalnya bentuk fungsinya tidak benar atau ada variabel penting yang terlewat). Jadi hubungan mpg ~ hp tidak bisa dijelaskan cukup dengan linear sederhana.
Model 2 (mpg ~ hp + wt): p-value = 0.003 < 0.05 → tolak H0 juga → Artinya, masih ada spesifikasi yang salah, tapi uji statistiknya lebih kecil dibanding model 1 → Artinya, meskipun belum sempurna, model berganda memberikan perbaikan dibanding model sederhana.

2. Residuals vs Fitted Plot

Model 1 (mpg ~ hp): Pola residual tampak melengkung (kurva U). Ini menandakan hubungan antara hp dan mpg tidak sepenuhnya linear. Artinya, model sederhana cenderung kurang baik menangkap pola data.
Model 2 (mpg ~ hp + wt): Pola residual sedikit lebih baik dibanding Model 1, tapi masih ada sedikit lengkungan pada bagian ekor. Meski begitu, distribusinya lebih tersebar merata di sekitar garis 0 dibanding Model 1. Artinya, model berganda sudah memperbaiki masalah ketidaklinearan, meski belum sempurna.

Uji Homoskedastisitas (Breusch-Pagan Test)

Model 1

# Model 1
model1 <- lm(mpg ~ hp, data = mtcars)
bptest(model1)

## 
##  studentized Breusch-Pagan test
## 
## data:  model1
## BP = 0.049298, df = 1, p-value = 0.8243

# Uji Homoskedastisitas - Model 1
plot(model1$fitted.values, residuals(model1),
     xlab = "Fitted Values",
     ylab = "Residuals",
     main = "Uji Homoskedastisitas - Model 1 (Sederhana)",
     pch = 19, col = "blue")
abline(h = 0, col = "red", lwd = 2)

Model 2

# Model 2
model2 <- lm(mpg ~ hp + wt, data = mtcars)
bptest(model2)

## 
##  studentized Breusch-Pagan test
## 
## data:  model2
## BP = 0.88072, df = 2, p-value = 0.6438

# Uji Homoskedastisitas - Model 2
plot(model2$fitted.values, residuals(model2),
     xlab = "Fitted Values",
     ylab = "Residuals",
     main = "Uji Homoskedastisitas - Model 2 (Berganda)",
     pch = 19, col = "darkgreen")
abline(h = 0, col = "red", lwd = 2)

Perbandingan Model 1 dan Model 2

1. UJi Breusch-Pagan (BP Test)

H0: Tidak ada heteroskedastisitas (residual homogen/varian konstan → homoskedastis).

H1: Ada heteroskedastisitas (varian residual tidak konstan).

Dalam uji, didapatkan bahwa:

Model 1 (mpg ~ hp): BP = 0.049, p-value = 0.8243 (>0.05) 👉 Tidak ada bukti heteroskedastisitas, model lulus asumsi homoskedastisitas.
Model 2 (mpg ~ hp + wt): BP = 0.880, p-value = 0.6438 (>0.05) 👉 Sama, tidak ada bukti heteroskedastisitas.

2. Grafik Residual vs Fitted

Model 1 (Sederhana): Titik-titik residual terlihat agak menyebar tidak beraturan. Ada beberapa titik ekstrem (outlier) di atas dan bawah. Namun pola “corong” (residual makin besar ketika fitted values makin besar) tidak terlihat jelas. Artinya secara visual, penyebaran residual cenderung acak, sehingga tidak ada indikasi kuat heteroskedastisitas.
Model 2 (Berganda): Titik-titik residual lebih terkumpul di sekitar garis nol. Penyebaran terlihat lebih merata dan tidak membentuk pola tertentu. Tidak ada gejala residual yang semakin menyebar seiring dengan fitted values. Artinya lebih stabil dan mendekati asumsi homoskedastisitas dibanding model 1.

Uji Normalitas Error (Shapiro Wilk)

Model 1

# Model 1
shapiro.test(residuals(model1))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model1)
## W = 0.92337, p-value = 0.02568

# Model 1
qqnorm(residuals(model1))
qqline(residuals(model1), col = "red", lwd = 2)

Model 2

# Model 2
shapiro.test(residuals(model2))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model2)
## W = 0.92792, p-value = 0.03427

qqnorm(residuals(model2))
qqline(residuals(model2), col = "blue", lwd = 2)

Perbandingan Model 1 dan Model 2

1. Shapiro-Wilk Test

Model 1: W = 0.92337, p-value = 0.02568
Model 2: W = 0.92792, p-value = 0.03427

Pada kedua model, nilai p < 0.05, sehingga secara statistik residual tidak berdistribusi normal pada taraf signifikansi 5%.

2. Q-Q Plot

Model 1 (Sederhana): Titik-titik di bagian tengah relatif mengikuti garis lurus, tetapi terdapat penyimpangan yang cukup jelas pada bagian ekor atas (kanan). Hal ini menunjukkan bahwa residual pada nilai ekstrem cenderung tidak mengikuti distribusi normal.
Model 2 (Berganda): Titik-titik di bagian tengah terlihat menempel lebih baik pada garis, dan penyimpangan di ekor atas tidak sebesar pada Model 1. Namun, pada ekor bawah (kiri) terlihat beberapa titik yang menyimpang cukup jauh dari garis, sehingga distribusi di bagian bawah lebih ekstrem dibanding normal. Namun secara keseluruhan, Model 2 memiliki distribusi residual yang sedikit lebih baik daripada Model 1 karena pola di bagian tengah lebih rapi, meskipun masih terdapat penyimpangan di ekor bawah.

Uji Multikolinearitas

Model 1

Pada Model 1, uji multikolinearitas tidak relevan karena hanya terdapat satu variabel independen.

Model 2

# Model 2 (mpg ~ hp + wt)
vif(model2)

##       hp       wt 
## 1.766625 1.766625

Nilai VIF hp = 1.77 → Artinya ketika hp diregresikan terhadap variabel lain (wt), R^2 yang dihasilkan kecil. Karena VIF < 10 (bahkan jauh di bawah 5), tidak ada masalah multikolinearitas.
Nilai VIF wt = 1.77 → Sama seperti hp, menunjukkan hubungan antara wt dan hp tidak kuat. Multikolinearitas sangat rendah.

Perbandingan Model 1 dan Model 2

Model 2 tidak mengalami masalah multikolinearitas. Variabel independen (hp dan wt) cukup bebas satu sama lain, sehingga tidak mengganggu estimasi koefisien regresi. Jadi dibandingkan dengan model 1 (yang tidak bisa diuji karena hanya ada 1 X), model 2 lebih lengkap diuji dan aman dari multikolinearitas.

Kesimpulan

1. Linearitas

Model 1 (mpg ~ hp): Uji RESET menolak H0 (p < 0.05), residual vs fitted plot menunjukkan pola melengkung → hubungan tidak sepenuhnya linear.

Model 2 (mpg ~ hp + wt): Uji RESET juga menolak H0 (p < 0.05), namun pola residual lebih menyebar merata dan lebih baik daripada Model 1.

👉 Model 2 lebih baik dalam menangkap pola hubungan, meskipun belum sempurna.

2. Homoskedastisitas

Kedua model lulus uji Breusch-Pagan (p > 0.05), artinya residual memiliki varian konstan.

Secara visual, Model 2 lebih stabil (residual terkumpul lebih rapi di sekitar garis nol).

👉 Kedua model homoskedastis, Model 2 lebih baik secara visual.

3. Normalitas Error

Shapiro-Wilk: Kedua model tidak memenuhi asumsi normalitas (p < 0.05).

Q-Q plot: Model 1 menyimpang di ekor atas, Model 2 menyimpang di ekor bawah tetapi lebih rapi di tengah.

👉 Normalitas tidak terpenuhi sempurna pada keduanya, namun Model 2 sedikit lebih baik.

4. Multikolinearitas

Model 1: Tidak relevan diuji karena hanya 1 variabel X.

Model 2: VIF = 1.77 (<10), artinya tidak ada multikolinearitas.

👉 Model 2 aman dari multikolinearitas.

5. Goodness of Fit

Model 1: R² = 0.60 → hanya menjelaskan 60% variasi mpg.

Model 2: R² = 0.83 → mampu menjelaskan 83% variasi mpg.

👉 Model 2 jauh lebih baik dalam menjelaskan variasi data.

Kesimpulan Akhir

Model 1 (sederhana): kurang baik karena spesifikasi tidak tepat, hubungan tidak sepenuhnya linear, variasi yang dijelaskan terbatas (60%), dan masih ada masalah normalitas.

Model 2 (berganda): meskipun asumsi normalitas belum terpenuhi sempurna, model ini memperbaiki linearitas, lebih stabil (homoskedastis), bebas multikolinearitas, dan menjelaskan data jauh lebih baik (R² = 83%).

👉 Oleh karena itu, Model 2 lebih layak digunakan untuk menjelaskan hubungan antara mpg, hp, dan wt, dengan catatan adanya keterbatasan pada asumsi normalitas residual.