Studi Kasus Regresi Linier Berganda: Pengaruh Jumlah Jam Belajar dan Tingkat Kehadiran Terhadap Nilai Ujian Mahasiswa
Seorang peneliti ingin menganalisis faktor-faktor yang mempengaruhi nilai ujian mahasiswa (Y). Diduga bahwa nilai ujian dipengaruhi oleh: X1 = jumlah jam belajar (jam/minggu) X2 = tingkat kehadiran (%) Peneliti mengumpulkan data dari 10 mahasiswa sebagai berikut :
Y <- c(65, 70, 75, 80, 85, 78, 72, 90, 88, 95)
X1 <- c(2, 3, 4, 5, 6, 5, 3, 7, 6, 8)
X2 <- c(60, 65, 70, 75, 80, 72, 68, 85, 83, 90)1. Model Regresi Linier Berganda
Pada soal ini dilakukan estimasi model regresi linier berganda menggunakan metode OLS berbasis matriks.
# matriks desain
X <- cbind(1, X1, X2)
# perhitungan manual (OLS)
beta_hat <- solve(t(X) %*% X) %*% t(X) %*% Y
beta_hat## [,1]
## 16.1360113
## X1 1.1698379
## X2 0.7744891
Dari hasil perhitungan dengan metode OLS, didapatkan nilai koefisien X1 = 1.1698379 yang menunjukkan bahwa setiap peningkatan 1 jam belajar per minggu akan meningkatkan nilai ujian mahasiswa sebesar 1.1698379, dengan asumsi variabel lain tetap. Selain itu didapatkan juga nilai X2 = 0.7744891 yang menunjukkan bahwa setiap peningkatan 1% tingkat kehadiran akan meningkatkan nilai ujian mahasiswa sebesar 0.7744891 poin, dengan asumsu variabel lain tetap. Dan nilai intercept sebesar 16.1360113 menunjukkan bahwa nilai ujian yang diprediksi ketika jam belajar dan kehadiran bernilai nol.
2. Menghitung uji F dan uji t secara manual
Pada soal ini dilakukan perhitungan manual untuk mendapatkan nilai pada uji F dan uji t.
# A. Nilai uji F
# Prediksi
Y_hat <- X %*% beta_hat
residuals <- Y - Y_hat
# Hitung SST, SSR, SSE
mean_y <- mean(Y)
SST <- sum((Y - mean_y)^2)
SSR <- sum((Y_hat - mean_y)^2)
SSE <- sum((Y - Y_hat)^2)
# Derajat bebas
n <- length(Y)
k <- 2
df_reg <- k
df_err <- n - k - 1
# Mean square
MSR <- SSR / df_reg
MSE <- SSE / df_err
# F hitung
F_hit <- MSR / MSE
F_hit## [1] 5172.116
## [1] 4.737414
Dari perhitungan di atas didapatkan nilai F hitung sebesar 5172.116 sedangkan nilai F tabel sebesar 4.737414. Karena F hitung lebih besar dari F tabel (5172.116 > 4.737414), maka H₀ ditolak. Sehingga menunjukkan bahwa variabel jumlah jam belajar dan tingkat kehadiran berpengaruh signifikan terhadap nilai ujian mahasiswa.
# B. Nilai uji t
# uji t
sigma2 <- SSE / df_err
var_beta <- sigma2 * solve(t(X) %*% X)
t_hit <- beta_hat / sqrt(diag(var_beta))
t_hit## [,1]
## 5.688154
## X1 4.201468
## X2 13.900261
## [1] 2.364624
Dari perhitungan di atas didapatkan nilai t hitung untuk X1 (jam belajar) sebesar 4.201468, sedangkan nilai t tabelnya yaitu 2.364624. Karena t hitung lebih besar dari t tabel (4.201468 > 2.364624), maka H₀ ditolak, sehingga menunjukkan bahwa jam belajar berpengaruh signifikan terhadap nilai ujian mahasiswa. Untuk X2 (tingkat kehadiran) diperoleh nilai t hitung sebesar 13.900261, sedangkan nilai t tabelnya sebesar 2.364624. Karena t hitung lebih besar dari t tabel (13.900261 > 2.364624), maka H₀ ditolak, sehingga dapat disimpulkan bahwa tingkat kehadiran berpengaruh signifikan terhadap nilai ujian mahasiswa.
3. Menghitung Nilai R^2 dan Adjusted R^2 Secara Manual
Pada soal ini dilakukan perhitungan secara manual untuk mencari nilai R^2 dan Adjusted R^2
## [1] 0.9993238
## [1] 0.9991305
Dari perhitungan tersebut didapatkan nilai R^2 sebesar 0.9993238, yang berarti sekitar 99,93% variasi nilai ujian mahasiswa dapat dijelaskan oleh variabel jam belajar dan tingkat kehadiran dalam model regresi. Sedangkan nilai Adjusted R^2 sebesar 0.9991305, yang menunjukkan bahwa setelah memperhitungkan jumlah variabel yang digunakan dalam model, kemampuan model dalam menjelaskan variasi nilai ujian masih tinggi. Sehingga menunjukkan bahwa model regresi yang digunakan sangat baik dalam menjelaskan hubungan antara variabel bebas dan variabel terikat.
4. Melakukan Perbandingan Hasil Pada Nomor 1-3 Dengan Menggunakan Fungsi lm
Pada soal ini dilakukan perbandingan hasil secara manual dengan menggunakan fungsi lm
##
## Call:
## lm(formula = Y ~ X1 + X2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31078 -0.14588 -0.05074 0.04440 0.56237
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.13601 2.83677 5.688 0.000744 ***
## X1 1.16984 0.27844 4.201 0.004028 **
## X2 0.77449 0.05572 13.900 2.36e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared: 0.9993, Adjusted R-squared: 0.9991
## F-statistic: 5172 on 2 and 7 DF, p-value: 8.042e-12
Dari perhitungan di atas didapatkan bahwa hasil estimasi menggunakan fungsi lm menghasilkan nilai koefisien yang sama dengan hasil perhitungan manual menggunakan metode OLS. Hal ini menunjukkan bahwa perhitungan manual yang dilakukan telah sesuai dan menghasilkan model regresi yang sama dengan menggunakan fungsi lm.
5. Prediksi Nilai Ujian Mahasiswa
Pada soal ini dilakukan prediksi nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu namun kehadirannya 100%.
## 1
## 94.75476
Berdasarkan hasil perhitungan di atas, didapatkan bahwa jika seorang mahasiswa memiliki jumlah jam belajar 1 jam per minggu dan tingkat kehadiran sebesar 100%, maka nilai ujian yang diprediksi oleh model adalah sekitar 94.75476. Hal ini menunjukkan bahwa tingkat kehadiran yang tinggi tetap memberikan kontribusi terhadap peningkatan nilai ujian mahasiswa.