Regresi Linier (Pengantar MOdel LInier)

Diberikan data tentang IQ dan tingkat kehadiran sepuluh siswa di kelas yang diperkirakan memengaruhi nilai UAS.

siswa <- 1:10
IQ <- c(110, 120, 115, 130, 110, 120, 120, 125, 110, 120)
kehadiran <- c(60, 70, 75, 80, 80, 90, 95, 95, 100, 100)
nilai_UAS <- c(65, 70, 75, 75, 80, 80, 85, 95, 90, 98)

data <- data.frame(siswa, IQ, kehadiran, nilai_UAS)

Pertanyaan:

BUatlah persamaan regresi linier berganda (Hitung beta duga secara manual di R dan bandingkan dengan fungsi lm).
Lakukan uji-F (Interpretasikan hasilnya).
Lakukan uji-t (Interpretasikan hasilnya).
Berapa koefisien determinasinya? Interpretasikan hasil ini.
Lakukan uji asumsi dan jelaskan hasilnya.

Jawaban:

X <- cbind(1, data$IQ, data$kehadiran)
Y <- data$nilai_UAS
beta <- solve(t(X) %*% X) %*% t(X) %*% Y
beta

##            [,1]
## [1,] 23.0544545
## [2,] -0.0343275
## [3,]  0.7372330

model <- lm(nilai_UAS ~ IQ + kehadiran, data=data)
summary(model)

## 
## Call:
## lm(formula = nilai_UAS ~ IQ + kehadiran, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 23.05445   25.57161   0.902 0.397247    
## IQ          -0.03433    0.22051  -0.156 0.880686    
## kehadiran    0.73723    0.10918   6.752 0.000264 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Interpretasi:

Berdasarkan hasil perhitungan koefisien regresi secara manual menggunakan metode Ordinary Least Squares (OLS) dan perhitungan menggunakan fungsi lm() pada R, diperoleh hasil yang identik. Nilai intercept sebesar 23,05445, koefisien variabel IQ (beta 2) sebesar -0,03433, dan koefisien variabel tingkat kehadiran sebesar 0,73723 (beta 1). Kesamaan hasil ini menunjukkan bahwa proses perhitungan manual yang dilakukan telah benar dan sesuai dengan metode yang digunakan oleh fungsi lm() dalam R, yaitu metode kuadrat terkecil (OLS).

Model regresi yang diperoleh adalah:

Y + 23,05445 + 0,73723β1 − 0,03433β2

Interpretasi dari model tersebut adalah bahwa setiap peningkatan 1% tingkat kehadiran akan meningkatkan nilai UAS sebesar 0,73723 poin dengan asumsi variabel lain konstan. Sementara itu, setiap peningkatan 1 poin IQ justru menurunkan nilai UAS sebesar 0,03433 poin, meskipun pengaruh ini sangat kecil. Secara umum, hasil ini mengindikasikan bahwa tingkat kehadiran memiliki pengaruh yang lebih dominan terhadap nilai UAS dibandingkan dengan IQ dalam data yang digunakan.

SSR <- sum((predict(model) - mean(Y))^2)
SSR

## [1] 899.891

SSE <- sum((Y - predict(model))^2)
SSE

## [1] 132.209

k <- 2  # jumlah prediktor
n <- length(Y)
F_stat <- (SSR/k) / (SSE/(n-k-1))
F_stat

## [1] 23.82303

pf(F_stat, k, n-k-1, lower.tail=FALSE)  # p-value

## [1] 0.0007522929

model <- lm(nilai_UAS ~ IQ + kehadiran, data=data)
summary(model)

## 
## Call:
## lm(formula = nilai_UAS ~ IQ + kehadiran, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 23.05445   25.57161   0.902 0.397247    
## IQ          -0.03433    0.22051  -0.156 0.880686    
## kehadiran    0.73723    0.10918   6.752 0.000264 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Interpretasi:

Berdasarkan hasil output dari perhitungan manual dan penggunaan fungsi lm(), diperoleh nilai F-statistic sebesar 23,82 dengan p-value sebesar 0,0007523. Uji F digunakan untuk menguji apakah variabel independen, yaitu tingkat kehadiran dan IQ, secara simultan berpengaruh terhadap nilai UAS. Dengan menggunakan taraf signifikansi 5% (α = 0,05), diperoleh bahwa p-value < 0,05, sehingga keputusan yang diambil adalah menolak H₀. Artinya, secara bersama-sama variabel IQ dan tingkat kehadiran memiliki pengaruh yang signifikan terhadap nilai UAS.

Model regresi yang dibentuk dapat dikatakan layak digunakan untuk menjelaskan hubungan antara variabel independen dan variabel dependen. Selain itu, hasil ini menunjukkan bahwa setidaknya terdapat satu variabel independen yang berpengaruh signifikan terhadap nilai UAS, sehingga model regresi memiliki kemampuan yang baik dalam menjelaskan variasi data yang ada.

summary(model)$coefficients

##               Estimate Std. Error    t value     Pr(>|t|)
## (Intercept) 23.0544545 25.5716101  0.9015644 0.3972467061
## IQ          -0.0343275  0.2205125 -0.1556715 0.8806860631
## kehadiran    0.7372330  0.1091797  6.7524718 0.0002644133

Interpretasi:

Berdasarkan hasil uji t pada masing-masing koefisien regresi, diperoleh bahwa variabel IQ memiliki nilai p-value sebesar 0,8806860631, yang artinya lebih besar dari taraf signifikansi 0,05. Oleh karena itu, H₀ tidak ditolak, yang berarti bahwa variabel IQ tidak berpengaruh signifikan terhadap nilai UAS secara parsial. Hal ini menunjukkan bahwa perubahan nilai IQ tidak memberikan pengaruh yang signifikan terhadap perubahan nilai UAS dalam model yang digunakan.

Sebaliknya, variabel tingkat kehadiran memiliki nilai p-value sebesar 0,0002644133, yang lebih kecil dari 0,05, sehingga H₀ ditolak. Hal ini menunjukkan bahwa tingkat kehadiran berpengaruh signifikan terhadap nilai UAS secara parsial. Dapat disimpulkan bahwa kehadiran merupakan variabel yang memiliki pengaruh yang signifikan dalam meningkatkan nilai UAS, sedangkan IQ tidak memberikan pengaruh yang signifikan dalam model ini.

R2 <- summary(model)$r.squared
R2

## [1] 0.8719029

Interpretasi:

Berdasarkan hasil analisis, diperoleh nilai koefisien determinasi (R²) sebesar 0,8719029. Hal ini menunjukkan bahwa sebesar 87,19% variasi dalam nilai UAS dapat dijelaskan oleh variabel IQ dan tingkat kehadiran dalam model regresi yang digunakan. Sisanya yang sebesar 12,81% dijelaskan oleh faktor lain di luar model, seperti metode belajar, lingkungan, motivasi, atau faktor lainnya yang tidak dimasukkan dalam penelitian ini.

Nilai R² yang cukup tinggi ini mengindikasikan bahwa model regresi memiliki kemampuan yang baik dalam menjelaskan hubungan antara variabel independen dan variabel dependen. Dengan demikian, model yang dibentuk dapat dikatakan cukup kuat dalam memprediksi nilai UAS berdasarkan variabel IQ dan tingkat kehadiran.

par(mfrow=c(2,2))
plot(model)

shapiro.test(resid(model))

## 
##  Shapiro-Wilk normality test
## 
## data:  resid(model)
## W = 0.95125, p-value = 0.6833

Interpretasi:

Berdasarkan hasil uji asumsi klasik, pengujian normalitas residual menggunakan uji Shapiro-Wilk menghasilkan nilai p-value sebesar 0,6833, yang nilainya lebih besar dari taraf signifikansi 0,05. Oleh karena itu, H₀ tidak ditolak, sehingga dapat disimpulkan bahwa residual berdistribusi normal. Hal ini menunjukkan bahwa asumsi normalitas dalam model regresi telah terpenuhi.

Selanjutnya, berdasarkan grafik Residuals vs Fitted, tidak terlihat pola tertentu yang jelas (seperti pola melengkung atau sistematis), sehingga dapat disimpulkan bahwa hubungan antara variabel independen dan dependen bersifat linear. Pada grafik Scale-Location, penyebaran residual relatif menyebar secara acak meskipun terdapat sedikit kecenderungan meningkat, namun masih dalam batas yang dapat diterima, sehingga asumsi homoskedastisitas (varians residual konstan) dapat dianggap terpenuhi. Pada Normal Q-Q Plot of Residuals, terlihat bahwa sebagian besar titik residual berada di sekitar garis diagonal. Hal ini menunjukkan bahwa distribusi residual mendekati distribusi normal, meskipun terdapat sedikit penyimpangan pada beberapa titik di bagian ujung (ekor distribusi), namun penyimpangan tersebut tidak terlalu signifikan dan masih dalam batas yang dapat diterima. Selain itu, pada grafik Residuals vs Leverage, tidak terdapat titik yang secara ekstrem melewati batas Cook’s Distance, sehingga dapat disimpulkan bahwa tidak terdapat pengaruh outlier atau leverage yang signifikan terhadap model.

Secara keseluruhan, dapat disimpulkan bahwa model regresi yang digunakan telah memenuhi asumsi-asumsi klasik, sehingga model tersebut layak digunakan untuk analisis dan pengambilan kesimpulan.

Regresi Linier (Pengantar MOdel LInier)

Malikan Bahy Ramadhan

2026-03-23