Diberikan data mengenai seorang peneliti yang ingin menganalisis faktor-faktor yang mempengaruhi nilai ujian mahasiswa (Y). Diduga bahwa nilai ujian dipengaruhi oleh jumah jam belajar (jam/minggu) dan tingkat kehadiran (%). Dengan nilai ujian mahaisiswa sebagai variabel dependen (Y), jumlah jam belajar (jam/minggu) sebagai variabel independen (X1), serta tingkat kehadiran (%) sebagai variabel independen (X2). Peneliti tersebut mengumpulkan data sample sebanyak 10 mahasiswa
Berikut estimasi model regresi linier berganda dengan mengestimasi nilai beta dengan menggunakan metode Ordinary Least Square (OLS).
# Matriks X
X_mat <- cbind(1, X1, X2)
colnames(X_mat) <- c("Intercept", "X1", "X2")
# Matriks Y
Y_mat <- matrix(Y, ncol = 1)
# Estimasi beta
beta_hat <- solve(t(X_mat) %*% X_mat) %*% t(X_mat) %*% Y_mat
beta_hat## [,1]
## Intercept 16.1360113
## X1 1.1698379
## X2 0.7744891
Dari estimasi nilai beta tersebut diperoleh estimasi model persamaan regresi linier berganda sebagai berikut:
\(\hat{Y} = 16.1360113 + 1.1698379X_1 + 0.7744891X_2 + \epsilon\)
Dengan interpretasi sebagai berikut:
Setelah didapatkan model regresi linier berganda, selanjutnya dilakukan prosedur uji simultan sebagai berikut.
Hipotesis:
\(H_0: \beta_1 = \beta_2 = 0\) (Tidak terdapat pengaruh jumlah jam belajar dan tingkat kehadiran secara simultan terhadap nilai ujian mahasiswa)
\(H_1: \text{minimal ada satu } \beta_i \neq 0\) (Terdapat pengaruh jumlah jam belajar dan tingkat kehadiran secara simultan terhadap nilai ujian mahasiswa)
Taraf Nyata:
α = 0.05
Statistik Uji:
# Prediksi
Y_hat <- X_mat %*% beta_hat
# Residual
e <- Y_mat - Y_hat
# Rata-rata Y
Y_mean <- mean(Y)
# SST (Sum of Squares Total)
SST <- sum((Y-Y_mean)^2)
# SSE (Sum of Squares Error)
SSE <- sum(e^2)
# SSR (Sum of squares Regression)
SSR <- SST-SSE
# Degree of freedom
df_R <- k
df_E <- n-k-1
df_T <- n-1
# MSR
MSR <- SSR/df_R
# MSE ()
MSE <- SSE/df_E
# Uji simultan (Uji F)
F_hitung <- MSR / MSE
F_tabel <- qf(0.95, df1 = df_R, df2 = df_E)
p_value_F <- pf(F_hitung, df1 = df_R, df2 = df_E, lower.tail = F)
F_hitung## [1] 5172.116
## [1] 4.737414
## [1] 8.042129e-12
Kriteria Penolakan:
Tolak H0 jika:
F hitung > F tabel, atau
p-value < α
Keputusan:
F hitung (5172.116) > F tabel (4.737414) -> Tolak H0
p-value (8.042129e-12) < α (0.05) -> Tolak H0
Kesimpulan:
Berdasarkan hasil uji F pada taraf nyata 5%, diperoleh bahwa model regresi secara keseluruhan sangat signifikan. Hal ini menunjukkan bahwa variabel jumlah jam belajar dan tingkat kehadiran secara bersama-sama memiliki pengaruh yang nyata terhadap nilai ujian mahasiswa. Dengan demikian, perubahan pada kedua variabel tersebut secara simultan akan berdampak terhadap perubahan nilai ujian mahasiswa. Artinya, model regresi yang dibangun mampu menjelaskan hubungan antara jumlah jam belajar dan tingkat kehadiran dengan nilai ujian mahasiswa secara kolektif, sehingga model layak digunakan untuk analisis dan penarikan kesimpulan lebih lanjut.
Setelah dilakukan uji simultan dan didapatkan hasil yang signifikan, selanjutnya dilakukan prosedur uji parsial sebagai berikut.
Hipotesis:
\(H_0: \beta_1 = 0\) (Tidak terdapat pengaruh jumlah jam belajar terhadap nilai ujian mahasiswa)
\(H_1: \beta_1 \neq 0\) (Terdapat pengaruh jumlah jam belajar terhadap nilai ujian mahasiswa)
\(H_0: \beta_2 = 0\) (Tidak terdapat pengaruh tingkat kehadiran terhadap nilai ujian mahasiswa)
\(H_1: \beta_2 \neq 0\) (Terdapat pengaruh tingkat kehadiran terhadap nilai ujian mahasiswa)
Taraf Nyata:
α = 0.05
Statistik Uji:
# Uji Parsial (Uji t)
SE_beta <- sqrt(diag(solve(t(X_mat) %*% X_mat)) * MSE)
t_hitung <- beta_hat / SE_beta
t_tabel <- qt(0.975, df = df_E)
p_value_t <- 2 * pt(abs(t_hitung), df = df_E, lower.tail = F)
t_hitung## [,1]
## Intercept 5.688154
## X1 4.201468
## X2 13.900261
## [1] 2.364624
## [,1]
## Intercept 7.444177e-04
## X1 4.028204e-03
## X2 2.357834e-06
Kriteria Penolakan:
Tolak H0 jika:
|t hitung| > t tabel, atau
p-value < 0.05
Keputusan:
Jumlah jam belajar (X1)
t hitung (|4.201468|) > t tabel (2.364624) -> Tolak H0
p-value (4.028204e-03) < α (0.05) -> Tolak H0
Tingkat kehadiran (X2)
t hitung (|13.900261|) > t tabel (2.364624) -> Tolak H0
p-value (2.357834e-06) < α (0.05) -> Tolak H0
Kesimpulan:
Berdasarkan hasil uji t pada taraf nyata 5%, diperoleh bahwa variabel jumlah jam belajar dan tingkat kehadiran sama-sama memiliki pengaruh yang signifikan terhadap nilai ujian mahasiswa. Secara parsial, kedua variabel tersebut terbukti berkontribusi secara nyata dalam menjelaskan variasi nilai ujian, di mana peningkatan jumlah jam belajar cenderung diikuti dengan peningkatan nilai ujian, dan demikian pula semakin tinggi tingkat kehadiran mahasiswa maka nilai yang diperoleh juga cenderung meningkat. Selain itu, jika dibandingkan, variabel tingkat kehadiran memiliki pengaruh yang lebih kuat terhadap nilai ujian, yang tercermin dari nilai t yang lebih besar dan p-value yang lebih kecil, sehingga dapat dikatakan bahwa kehadiran merupakan faktor yang lebih dominan dalam model dibandingkan jumlah jam belajar.
Setelah dilakukan uji simultan dan uji parsial, selanjutnya dilakukan analisis koefisien determinasi untuk mengetahui seberapa besar kemampuan variabel independen dalam menjelaskan variasi pada variabel dependen.
## [1] 0.9993238
## [1] 0.9991305
Berdasarkan hasil perhitungan, diperoleh nilai koefisien determinasi \(R^2\) sebesar 0.9993238 yang menunjukkan bahwa sekitar 99.93% variasi nilai ujian mahasiswa dapat dijelaskan oleh variabel jumlah jam belajar dan tingkat kehadiran dalam model regresi yang dibangun. Hal ini mengindikasikan bahwa model memiliki kemampuan yang sangat tinggi (hampir sempurna) dalam menjelaskan hubungan antara variabel independen dengan variabel dependen. Sementara itu, hanya sekitar 0.07% variasi nilai ujian yang dipengaruhi oleh faktor lain di luar model, seperti halnya motivasi belajar, metode pembelajaran, atau faktor individu lainnya yang tidak dimasukkan dalam analisis.
Selanjutnya Nilai Adjusted \(R^2\) sebesar 0.9991305 menunjukkan bahwa setelah dilakukan penyesuaian terhadap jumlah variabel independen dan ukuran sampel, model masih mampu menjelaskan sebesar 99.91% variasi nilai ujian. Nilai ini sangat mendekati \(R^2\), yang merupakan indikasi bahwa variabel yang digunakan dalam model memang relevan dan tidak menyebabkan overfitting yang berarti. Selisih yang sangat kecil antara \(R^2\) dan Adjusted \(R^2\) menunjukkan bahwa model stabil dan memiliki kemampuan prediktif yang sangat baik. Dengan demikian, model regresi yang terbentuk dapat dikatakan sangat andal dalam menjelaskan variasi nilai ujian mahasiswa berdasarkan jumlah jam belajar dan tingkat kehadiran.
Setelah melakukan perhitungan dengan metode manual, selanjutnya dilakukan verifikasi dan perbandingan dengan menggunakan fungsi lm.
# Estimasi model regresi linier berganda dengan fungsi lm
# Dengan fungsi lm
model <- lm(Y ~ X1 + X2)
summary(model)##
## Call:
## lm(formula = Y ~ X1 + X2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31078 -0.14588 -0.05074 0.04440 0.56237
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.13601 2.83677 5.688 0.000744 ***
## X1 1.16984 0.27844 4.201 0.004028 **
## X2 0.77449 0.05572 13.900 2.36e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared: 0.9993, Adjusted R-squared: 0.9991
## F-statistic: 5172 on 2 and 7 DF, p-value: 8.042e-12
## value numdf dendf
## 5172.116 2.000 7.000
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.1360113 2.83677490 5.688154 7.444177e-04
## X1 1.1698379 0.27843551 4.201468 4.028204e-03
## X2 0.7744891 0.05571759 13.900261 2.357834e-06
## [1] 0.9993238
## [1] 0.9991305
Berdasarkan hasil perbandingan antara perhitungan manual menggunakan metode OLS dengan hasil dari fungsi lm di R, diperoleh bahwa nilai koefisien regresi (\(\beta\)), statistik uji F, Statistik uji t, \(R^2\), dan Adjusted \(R^2\) menunjukkan hasil yang sama. Hal ini menandakan bahwa perhitungan manual yang dilakukan telah sesuai dengan teori estimasi parameter regresi linier dan diimplementasikan dengan benar. Dengan demikian, fungsi lm pada R pada dasarnya mengadopsi prinsip yang sama, yaitu metode Ordinary Least Squares (OLS), sehingga menghasilkan output yang konsisten dengan perhitungan manual.
Kesamaan hasil ini juga mengindikasikan bahwa tidak terdapat kesalahan dalam proses pembentukan model maupun dalam penentuan komponen-komponen statistik seperti SSE, SSR, dan varians error. Oleh karena itu, dapat disimpulkan bahwa model regresi yang diperoleh bersifat valid secara perhitungan, penggunaan fungsi lm dapat dijadikan sebagai alat verifikasi yang praktis dan andal terhadap hasil perhitungan manual, serta interpretasi yang telah dijabarkan sebelumnya adalah interpretasi yang valid.
Berikut prediksi nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu dan kehadiran 100%.
# Prediksi dengan X1=1 jam dan X2=100%
x_new <- matrix(c(1, 1, 100), nrow = 1)
Y_pred <- x_new %*% beta_hat
Y_pred## [,1]
## [1,] 94.75476
Berdasarkan hasil prediksi menggunakan model regresi linier berganda yang telah dibangun, diperoleh bahwa nilai ujian mahasiswa diperkirakan sebesar 94.75476 ketika jumlah jam belajar sebesar 1 jam per minggu dan tingkat kehadiran mencapai 100%. Hasil ini menunjukkan bahwa meskipun waktu belajar relatif sangat sedikit, tingkat kehadiran yang tinggi memberikan kontribusi yang sangat besar terhadap peningkatan nilai ujian. Hal ini sejalan dengan hasil analisis sebelumnya yang menunjukkan bahwa variabel kehadiran memiliki pengaruh yang lebih dominan dibandingkan jumlah jam belajar. Dengan demikian, dalam konteks model ini, kehadiran yang optimal dapat secara signifikan meningkatkan performa akademik mahasiswa, bahkan ketika faktor jam belajar berada pada tingkat yang rendah.