Analisis Regresi Linier Berganda: Faktor-Faktor yang Mempengaruhi Nilai Ujian Mahasiswa
Dalam proses pembelajaran di perguruan tinggi, hasil akademik mahasiswa dipengaruhi oleh berbagai faktor. Dua di antaranya adalah jumlah jam belajar per minggu dan tingkat kehadiran di kelas. Jumlah jam belajar mencerminkan usaha mandiri mahasiswa dalam memahami materi, sedangkan kehadiran menunjukkan keterlibatan aktif dalam proses pembelajaran di kelas. Oleh karena itu, penting untuk mengetahui bagaimana kedua faktor tersebut mempengaruhi nilai ujian mahasiswa sebagai indikator pencapaian akademik.
Diberikan data jumlah jam belajar dan tingkat kehadiran sepuluh mahasiswa yang diperkirakan mempengaruhi nilai ujian.
No
| Y | X1 (Jam Belajar) | X2 (Kehadiran) | |
|---|---|---|---|
| 1 | 65 | 2 | 60 |
| 2 | 70 | 3 | 65 |
| 3 | 75 | 4 | 70 |
| 4 | 80 | 5 | 75 |
| 5 | 85 | 6 | 80 |
| 6 | 78 | 5 | 72 |
| 7 | 72 | 3 | 68 |
| 8 | 90 | 7 | 85 |
| 9 | 88 | 6 | 83 |
| 10 | 95 | 8 | 90 |
Studi kasus ini menggunakan data dari sepuluh mahasiswa untuk menganalisis hubungan antara jumlah jam belajar dan tingkat kehadiran terhadap nilai ujian. Variabel yang digunakan meliputi jumlah jam belajar per minggu sebagai variabel independen (\(X_1\)), tingkat kehadiran (%) sebagai variabel independen (\(X_2\)), dan nilai ujian sebagai variabel dependen (Y).
Data menunjukkan bahwa jumlah jam belajar mahasiswa berada pada kisaran 2–8 jam per minggu, tingkat kehadiran antara 60%–90%, dan nilai ujian berkisar 65–95. Variasi ini mencerminkan adanya perbedaan dalam usaha belajar dan keaktifan mahasiswa selama proses perkuliahan.
Selanjutnya, data tersebut akan dianalisis menggunakan regresi linier berganda dengan tujuan untuk:
Menentukan persamaan regresi linier berganda antara jumlah jam belajar dan tingkat kehadiran terhadap nilai ujian menggunakan metode OLS berbasis matriks.
Menguji signifikansi model secara simultan menggunakan uji F. Menguji pengaruh masing-masing variabel independen secara parsial menggunakan uji t.
Menghitung dan menginterpretasikan nilai koefisien determinasi (\(R^2\)) dan Adjusted \(R^2\).
Membandingkan hasil perhitungan manual dengan output fungsi regresi pada R.
Melakukan prediksi nilai ujian berdasarkan kondisi tertentu.
Load Library dan Input Data
## Warning: package 'lmtest' was built under R version 4.4.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.4.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Warning: package 'car' was built under R version 4.4.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.4.2
Persamaan Regresi Linier Berganda
Analisis regresi linier berganda digunakan untuk memodelkan hubungan linear antara dua atau lebih variabel bebas (independen) terhadap satu variabel terikat (dependen). Dalam studi ini, variabel dependen (\(Y\)) adalah Nilai Ujian, sedangkan variabel bebasnya adalah Jumlah Jam Belajar (\(X_1\)) dan Tingkat Kehadiran (\(X_2\)). Model ini memungkinkan kita untuk memahami kontribusi masing-masing variabel independen terhadap variabel dependen secara simultan.
Secara umum, model populasi untuk regresi linier berganda dapat dituliskan sebagai berikut:
\[ Y=\beta_0 +\beta_1X_1 + \beta_2X_2+\dots+\beta_kX_k +\epsilon \]
Keterangan:
\(Y\) : Variabel dependen (Nilai Ujian).
\(X_1, X_2, \dots, X_k\) : Variabel independen (Faktor-faktor yang mempengaruhi).
\(\beta_0\) : Intersep (Konstanta).
\(\beta_1, \beta_2, \dots, \beta_k\) : Koefisien regresi parsial untuk masing-masing variabel bebas.
\(\epsilon\) : Error atau sisaan (faktor lain yang tidak masuk dalam model).
Untuk mengestimasi nilai \(Y\) berdasarkan data sampel yang tersedia, digunakan persamaan prediksi (model estimasi) sebagai berikut:
\[ \hat{Y}=\hat{\beta}_0+\hat{\beta}_1X_1 +\hat{\beta}_2X_2 + \dots +\hat{\beta}_K X_k \]
Keterangan:
\(\hat{Y}\) : Nilai dugaan (predicted value) dari variabel dependen.
\(\hat{\beta}_0\) : Estimasi titik untuk intersep.
\(\hat{\beta}_k\) : Estimasi titik untuk koefisien regresi variabel ke-\(k\).
Dalam rangka menjawab pertanyaan penelitian, dilakukan analisis regresi linier berganda untuk mengkaji pengaruh jumlah jam belajar dan tingkat kehadiran terhadap nilai ujian mahasiswa. Estimasi parameter model dilakukan menggunakan metode Ordinary Least Squares (OLS) berbasis matriks secara manual.
Selanjutnya, hasil perhitungan tersebut dibandingkan dengan output
dari fungsi lm() pada perangkat lunak R guna memastikan
keakuratan dan konsistensi hasil yang diperoleh.
Metode OLS Matriks
Untuk memperoleh nilai koefisien regresi secara manual, digunakan pendekatan matriks dengan rumus:
\[ \beta = (X^T X)^{-1} X^T Y \]
## jam_belajar kehadiran
## [1,] 1 2 60
## [2,] 1 3 65
## [3,] 1 4 70
## [4,] 1 5 75
## [5,] 1 6 80
## [6,] 1 5 72
## [7,] 1 3 68
## [8,] 1 7 85
## [9,] 1 6 83
## [10,] 1 8 90
## [,1]
## [1,] 65
## [2,] 70
## [3,] 75
## [4,] 80
## [5,] 85
## [6,] 78
## [7,] 72
## [8,] 90
## [9,] 88
## [10,] 95
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## 1 1 1 1 1 1 1 1 1 1
## jam_belajar 2 3 4 5 6 5 3 7 6 8
## kehadiran 60 65 70 75 80 72 68 85 83 90
## jam_belajar kehadiran
## 10 49 748
## jam_belajar 49 273 3827
## kehadiran 748 3827 56772
## jam_belajar kehadiran
## 100.167606 9.4864928 -1.95924360
## jam_belajar 9.486493 0.9649988 -0.19003993
## kehadiran -1.959244 -0.1900399 0.03864224
## [,1]
## 798
## jam_belajar 4074
## kehadiran 60516
# Menghitung Koefisien Regresi
beta <- XtX_inv %*% XtY
rownames(beta) <- c("Intercept (b0)","Jam Belajar(b1)","Kehadiran(b2)")
colnames(beta) <- "Estimasi Manual"
beta## Estimasi Manual
## Intercept (b0) 16.1360113
## Jam Belajar(b1) 1.1698379
## Kehadiran(b2) 0.7744891
Berdasarkan hasil estimasi parameter regresi menggunakan metode Ordinary Least Squares (OLS) berbasis matriks, diperoleh persamaan regresi linier berganda sebagai berikut:
\[ \hat{Y} = 16.136 + 1.170X_1 + 0.774X_2 \]
Persamaan tersebut menunjukkan bahwa kedua variabel independen, yaitu jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)), memiliki pengaruh positif terhadap nilai ujian mahasiswa (\(Y\)).
Koefisien intersep sebesar 16.136 mengindikasikan bahwa ketika jam belajar dan tingkat kehadiran bernilai nol, maka nilai ujian yang diprediksi adalah sebesar 16.136. Meskipun secara praktis kondisi ini tidak realistis, nilai intersep tetap diperlukan dalam pembentukan model regresi.
Koefisien regresi untuk variabel jam belajar sebesar 1.170 berarti bahwa setiap penambahan 1 jam belajar per minggu, dengan asumsi tingkat kehadiran tetap, akan meningkatkan nilai ujian mahasiswa rata-rata sebesar 1.170 poin.
Sementara itu, koefisien regresi untuk variabel tingkat kehadiran sebesar 0.774 menunjukkan bahwa setiap peningkatan kehadiran sebesar 1%, dengan asumsi jumlah jam belajar tetap, akan meningkatkan nilai ujian mahasiswa rata-rata sebesar 0.774 poin.
Secara keseluruhan, hasil ini mengindikasikan bahwa semakin tinggi intensitas belajar dan semakin tinggi tingkat kehadiran mahasiswa, maka nilai ujian yang diperoleh cenderung semakin meningkat.
Uji F dan Uji t
Uji F (Simultan)
Uji F digunakan untuk menguji signifikansi model regresi secara simultan, yaitu untuk mengetahui apakah seluruh variabel independen yang digunakan dalam model secara bersama-sama memiliki pengaruh yang signifikan terhadap variabel dependen. Dalam konteks penelitian ini, uji F bertujuan untuk menguji apakah variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) secara simultan berpengaruh terhadap nilai ujian mahasiswa (\(Y\)).
Hipotesis yang digunakan dalam uji F adalah sebagai berikut:
- \(H_0\) : \(\beta_1 = \beta_2 = 0\) (tidak ada pengaruh simultan)
- \(H_1\) : Minimal ada satu \(\beta_i \neq 0\) (ada pengaruh simultan)
Statistik uji F dihitung menggunakan perbandingan antara variasi yang dijelaskan oleh model (SSR) dengan variasi error (SSE).
# Prediksi
Y_hat <- X %*% beta
# Residual
e <- Y - Y_hat
# Jumlah kuadrat
SSE <- t(e) %*% e
SST <- t(Y - mean(Y)) %*% (Y - mean(Y))
SSR <- SST - SSE
# Derajat bebas
n <- nrow(X)
k <- ncol(X) - 1
df_reg <- k
df_reg## [1] 2
## [1] 7
## [1] 9
## Estimasi Manual
## Estimasi Manual 5172.116
## [1] 4.737414
## Estimasi Manual
## Estimasi Manual 8.042129e-12
# TABEL ANOVA MANUAL
anova_manual <- data.frame(
Sumber = c("Regresi", "Error", "Total"),
JK = c(SSR, SSE, SST),
df = c(df_reg, df_err, df_tot),
MK = c(MSR, MSE, NA),
F = c(F_hitung, NA, NA),
P_Value = c(p_value_F, NA, NA)
)
anova_manual## Sumber JK df MK F P_Value
## 1 Regresi 831.0376321 2 415.51881607 5172.116 8.042129e-12
## 2 Error 0.5623679 7 0.08033827 NA NA
## 3 Total 831.6000000 9 NA NA NA
Berdasarkan tabel ANOVA yang diperoleh, nilai jumlah kuadrat regresi (SSR) sebesar 831.038 jauh lebih besar dibandingkan dengan jumlah kuadrat error (SSE) sebesar 0.562. Hal ini menunjukkan bahwa sebagian besar variasi dalam nilai ujian mampu dijelaskan oleh model regresi yang melibatkan variabel jumlah jam belajar dan tingkat kehadiran.
Nilai mean square regresi (MSR) sebesar 415.519 dan mean square error (MSE) sebesar 0.080 menghasilkan nilai statistik uji F sebesar: \[F_{hitung} =5172.116\]
Selain itu, diperoleh nilai p-value sebesar \(8.042129 \times 10^{-12}\) yang jauh lebih kecil dari taraf signifikansi yang digunakan ( 𝛼 = 0.05). Karena p-value < 𝛼,maka keputusan yang diambil adalah menolak hipotesis nol (\(H_0\))
Dengan demikian, dapat disimpulkan bahwa secara simultan variabel jumlah jam belajar dan tingkat kehadiran berpengaruh signifikan terhadap nilai ujian mahasiswa. Nilai F hitung yang sangat besar serta p-value yang sangat kecil juga menunjukkan bahwa model regresi yang dibangun memiliki tingkat signifikansi yang sangat tinggi dan sangat layak digunakan dalam menjelaskan hubungan antar variabel.
Uji t (Parsial)
Uji t digunakan untuk menguji signifikansi masing-masing variabel independen secara parsial terhadap variabel dependen. Melalui uji ini, dapat diketahui apakah setiap variabel, yaitu jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)), memiliki pengaruh yang signifikan secara individu terhadap nilai ujian mahasiswa.
Hipotesis yang digunakan dalam uji t adalah:
- \(H_0\) : \(\beta_i = 0\) (tidak berpengaruh signifikan)
- \(H_1\) : \(\beta_i \neq 0\) (berpengaruh signifikan)
Nilai statistik t diperoleh dari perbandingan antara estimasi koefisien regresi dengan standar error-nya.
# Varians error
sigma2 <- as.numeric(SSE / (n - k - 1))
# Matriks kovarians koefisien
var_beta <- sigma2 * XtX_inv
# Standard error
se_beta <- sqrt(diag(var_beta))
# t hitung
t_hitung <- beta / se_beta
# p-value uji t
p_value_t <- 2 * pt(-abs(t_hitung), df = n - k - 1)
# TABEL UJI t
uji_t <- data.frame(
Koefisien = as.numeric(beta),
Std_Error = se_beta,
t_hitung = as.numeric(t_hitung),
p_value = as.numeric(p_value_t)
)
uji_t## Koefisien Std_Error t_hitung p_value
## 16.1360113 2.83677490 5.688154 7.444177e-04
## jam_belajar 1.1698379 0.27843551 4.201468 4.028204e-03
## kehadiran 0.7744891 0.05571759 13.900261 2.357834e-06
Uji t digunakan untuk menguji signifikansi pengaruh masing-masing variabel independen secara parsial terhadap variabel dependen, yaitu nilai ujian mahasiswa.
Berdasarkan hasil perhitungan, untuk variabel jumlah jam belajar diperoleh nilai t hitung sebesar 4.201 dengan p-value sebesar \((4.028204\times 10^{-3})\). Karena nilai p-value lebih kecil dari taraf signifikansi yang digunakan \((\alpha = 0.05)\), maka hipotesis nol (\(H_0\)) ditolak. Hal ini menunjukkan bahwa jumlah jam belajar berpengaruh signifikan terhadap nilai ujian mahasiswa. Artinya, peningkatan jam belajar akan diikuti oleh peningkatan nilai ujian.
Untuk variabel tingkat kehadiran, diperoleh nilai t hitung sebesar 13.900 dengan p-value sebesar \(2.357834 \times 10^{-6}\). Karena p-value juga lebih kecil dari 0.05, maka hipotesis nol (\(H_0\)) kembali ditolak. Hal ini menunjukkan bahwa tingkat kehadiran memiliki pengaruh signifikan terhadap nilai ujian mahasiswa.
Selain itu, nilai t hitung variabel kehadiran lebih besar dibandingkan dengan variabel jam belajar, yang mengindikasikan bahwa tingkat kehadiran memiliki pengaruh yang lebih dominan terhadap nilai ujian mahasiswa.
Sementara itu, nilai intersep juga signifikan dengan p-value sebesar \((7.444177 \times 10^{-4})\), yang menunjukkan bahwa konstanta dalam model berperan secara statistik dalam membentuk persamaan regresi.
Secara keseluruhan, hasil uji t menunjukkan bahwa baik jumlah jam belajar maupun tingkat kehadiran secara parsial berpengaruh signifikan terhadap nilai ujian mahasiswa.
Nilai R² dan Adjusted R²
R²
Koefisien determinasi (\(R^2\)) digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen. Nilai \(R^2\) berkisar antara 0 hingga 1, dimana semakin mendekati 1 menunjukkan bahwa model semakin baik dalam menjelaskan variabilitas data.
Dalam penelitian ini, nilai \(R^2\) menunjukkan proporsi variasi nilai ujian mahasiswa yang dapat dijelaskan oleh variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)).
## [1] 0.9993238
Berdasarkan hasil perhitungan, diperoleh nilai koefisien determinasi (\(R^2\)) sebesar 0.9993238 atau sekitar 99.93%. Nilai ini menunjukkan bahwa hampir seluruh variasi dalam nilai ujian mahasiswa dapat dijelaskan oleh variabel jumlah jam belajar dan tingkat kehadiran yang digunakan dalam model. Dengan kata lain, kontribusi kedua variabel tersebut sangat besar dalam menjelaskan perubahan nilai ujian, sedangkan hanya sekitar 0.07% variasi yang dipengaruhi oleh faktor lain di luar model.
Adjusted R²
Adjusted \(R^2\) merupakan bentuk penyesuaian dari koefisien determinasi (\(R^2\)) yang mempertimbangkan jumlah variabel independen dalam model serta ukuran sampel. Nilai ini digunakan untuk memberikan estimasi yang lebih akurat terhadap kemampuan model, terutama ketika terdapat lebih dari satu variabel independen.
Berbeda dengan \(R^2\), nilai Adjusted \(R^2\) dapat menurun apabila penambahan variabel independen tidak memberikan kontribusi yang signifikan terhadap model. Oleh karena itu, Adjusted \(R^2\) sering digunakan sebagai indikator yang lebih reliabel dalam mengevaluasi kebaikan model regresi.
## Estimasi Manual
## Estimasi Manual 0.9991305
Selain itu, diperoleh nilai Adjusted \(R^2\) sebesar 0.9991305 atau sekitar 99.91%. Nilai ini merupakan ukuran yang telah disesuaikan dengan jumlah variabel independen dalam model, sehingga memberikan gambaran yang lebih akurat mengenai kemampuan model dalam menjelaskan data.
Perbedaan yang sangat kecil antara nilai \(R^2\) dan Adjusted \(R^2\) mengindikasikan bahwa penambahan variabel dalam model tidak menyebabkan bias atau overfitting. Hal ini menunjukkan bahwa model regresi yang digunakan sudah optimal dan memiliki kemampuan yang sangat baik dalam menjelaskan hubungan antara jumlah jam belajar, tingkat kehadiran, dan nilai ujian mahasiswa.
Fungsi lm
Untuk memastikan keakuratan hasil perhitungan manual tersebut,
selanjutnya akan dilakukan analisis menggunakan fungsi
lm()
##
## Call:
## lm(formula = nilai ~ jam_belajar + kehadiran, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31078 -0.14588 -0.05074 0.04440 0.56237
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.13601 2.83677 5.688 0.000744 ***
## jam_belajar 1.16984 0.27844 4.201 0.004028 **
## kehadiran 0.77449 0.05572 13.900 2.36e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared: 0.9993, Adjusted R-squared: 0.9991
## F-statistic: 5172 on 2 and 7 DF, p-value: 8.042e-12
Berdasarkan hasil pengujian yang telah dilakukan, baik melalui
perhitungan manual maupun menggunakan fungsi lm() pada
perangkat lunak R, diperoleh hasil yang konsisten untuk uji F, uji t,
serta nilai koefisien determinasi (\(R^2\)) dan Adjusted \(R^2\).
Terdapat perbedaan kecil pada nilai statistik uji F, dimana hasil
perhitungan manual menghasilkan nilai sebesar 5172.116, sedangkan output
dari fungsi lm() menunjukkan nilai sebesar 5172. Perbedaan
ini disebabkan oleh proses pembulatan angka pada output R dan tidak
memberikan pengaruh terhadap keputusan pengujian maupun tingkat
signifikansi model.
Konsistensi hasil ini menunjukkan bahwa prosedur perhitungan manual
yang dilakukan telah tepat dan sesuai dengan metode estimasi yang
digunakan dalam fungsi lm(). Dengan demikian, dapat
disimpulkan bahwa model regresi yang diperoleh valid, serta hasil
analisis yang dilakukan dapat dipercaya untuk menjelaskan hubungan
antara jumlah jam belajar, tingkat kehadiran, dan nilai ujian
mahasiswa.
Prediksi
Prediksikan nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu namun kehadirannya 100%
X1 = 1 jam/minggu
X2 = 100%
## [1] 94.75476
Berdasarkan hasil perhitungan menggunakan model regresi linier berganda yang telah diperoleh, nilai prediksi ujian mahasiswa dengan jumlah jam belajar 1 jam per minggu dan tingkat kehadiran 100% adalah sebesar 94.75476.
Hasil ini menunjukkan bahwa meskipun jumlah jam belajar relatif rendah, tingkat kehadiran yang sangat tinggi (100%) memberikan kontribusi yang besar terhadap peningkatan nilai ujian. Dengan kata lain, kehadiran yang optimal dalam proses pembelajaran mampu mengimbangi rendahnya intensitas belajar mandiri.
Namun demikian, secara konseptual, kondisi ini juga perlu ditafsirkan secara hati-hati. Meskipun model memberikan prediksi yang tinggi, dalam praktiknya kombinasi jam belajar yang sangat rendah dengan nilai ujian yang sangat tinggi mungkin kurang realistis. Hal ini mengindikasikan bahwa model sangat dipengaruhi oleh pola data yang ada, dimana variabel kehadiran memiliki pengaruh yang lebih dominan dibandingkan jam belajar.
Dengan demikian, hasil prediksi ini tetap valid secara matematis berdasarkan model yang dibangun, namun interpretasinya perlu mempertimbangkan konteks nyata dari perilaku belajar mahasiswa.