Analisis Regresi Linier Berganda Pengaruh Jumlah Jam Belajar dan Tingkat Kehadiran Terhadap Nilai Ujian Mahasiswa

Regresi Linier Berganda merupakan salah satu metode statistik yang digunakan untuk melakukan peramalan ketika terdapat satu variabel terikat (dependen) dan lebih dari satu variabel bebas (independen). Analisis ini bertujuan untuk mengetahui arah dan kekuatan hubungan antara variabel-variabel tersebut, apakah bersifat positif atau negatif, serta memprediksi perubahan pada variabel terikat akibat kenaikan atau penurunan nilai variabel bebas.

Adapun bentuk umum persamaan Regresi Linier Berganda dapat dinyatakan sebagai berikut:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_n X_{ni} + e_i \] Dimana:
- \(Y\) = variabel dependen
- \(\beta_0\) = konstanta regresi (intersep), yaitu kondisi nilai \(Y\) ketika semua nilai \(X = 0\)
- \(\beta_1\) = koefisien regresi dari masing-masing variabel bebas
- \(X_1\) = variabel bebas (independent variabel)
- \(e\) = error

Analisis Persamaan Regresi Linier Berganda

Berdasarkan konsep regresi linier berganda yang telah dijelaskan sebelumnya, analisis ini dapat diterapkan pada permasalahan nyata untuk mengetahui hubungan antar variabel.

Dalam bidang pendidikan, hasil belajar mahasiswa tidak hanya dipengaruhi oleh satu faktor, melainkan oleh berbagai faktor yang saling berkaitan. Dua faktor yang sering diperhatikan adalah jumlah jam belajar dan tingkat kehadiran di kelas. Pada studi kasus ini, digunakan data jumlah jam belajar dan tingkat kehadiran dari sepuluh mahasiswa yang diduga memengaruhi nilai ujian. Variabel yang dianalisis meliputi jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) sebagai variabel independen, serta nilai ujian (\(Y\)) sebagai variabel dependen.

Data tersebut disusun dalam file Excel dan digunakan sebagai dasar dalam proses analisis, sehingga memudahkan pengolahan serta perhitungan menggunakan perangkat lunak R.

library(readxl)

data <- read_xlsx("Studi Kasus Regresi Linier Berganda Jam Belajar, Kehadiran, dan Nilai Ujian.xlsx", sheet = "Sheet1")
DT::datatable(data)

Berdasarkan data tersebut, dilakukan beberapa tahap analisis sebagai berikut:

Mengestimasi model regresi linier berganda dengan metode Ordinary Least Squares (OLS) berbasis matriks serta memberikan interpretasi terhadap hasil yang diperoleh.
Menghitung nilai uji F dan uji t secara manual, kemudian menginterpretasikan hasil perhitungannya.
Menghitung koefisien determinasi (R²) dan Adjusted R² secara manual beserta interpretasinya.
Membandingkan hasil estimasi model, uji F, uji t, serta nilai R² dan Adjusted R² dengan output yang dihasilkan oleh fungsi lm() pada R.
Melakukan prediksi nilai ujian mahasiswa berdasarkan model yang telah diperoleh, dengan asumsi waktu belajar 1 jam per minggu dan tingkat kehadiran sebesar 100%.

Estimasi Model Menggunakan Metode OLS

Pendugaan parameter dalam regresi linier berganda dilakukan dengan menggunakan Metode Kuadrat Terkecil (MKT) atau Ordinary Least Squares (OLS). Metode ini bertujuan untuk memperoleh nilai koefisien regresi yang meminimalkan jumlah kuadrat galat (residual) antara nilai aktual dan nilai prediksi. Secara matematis, estimasi parameter regresi dapat dinyatakan sebagai berikut: \[ \hat{\beta} = (X'X)^{-1}X'Y \] di mana \(X\) merupakan matriks variabel independen, \(X'\) adalah transpose dari \(X\), \(X'X\) adalah hasil perkalian yang membentuk matriks persegi, \((X'X)^{-1}\) merupakan invers dari matriks tersebut, dan \(X'Y\) adalah hasil perkalian antara \(X'\) dengan variabel dependen \(Y\).

# Definisi Variabel
Y <- as.matrix(data$Y)        # Variabel dependen (respon)
X1 <- data$X1                 # Variabel independen 1
X2 <- data$X2                 # Variabel independen 2
n <- length(Y)                # Jumlah observasi

# Matriks Desain
X <- cbind(1, X1, X2) #intercept + variabel dependen

# Transpose matriks X (X')
Xt <- t(X)
Xt

##    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
##       1    1    1    1    1    1    1    1    1     1
## X1    2    3    4    5    6    5    3    7    6     8
## X2   60   65   70   75   80   72   68   85   83    90

# Perkalian X'X
XtX <- Xt %*% X
XtX

##          X1    X2
##     10   49   748
## X1  49  273  3827
## X2 748 3827 56772

# Invers dari (X'X)
XtX_inv <- solve(XtX)
XtX_inv

##                       X1          X2
##    100.167606  9.4864928 -1.95924360
## X1   9.486493  0.9649988 -0.19003993
## X2  -1.959244 -0.1900399  0.03864224

# Perkalian X'Y
XtY <- Xt %*% Y
XtY

##     [,1]
##      798
## X1  4074
## X2 60516

# Estimasi koefisien regresi β
beta_manual <- XtX_inv %*% XtY
beta_manual

##          [,1]
##    16.1360113
## X1  1.1698379
## X2  0.7744891

Dari hasil perhitungan diperoleh koefisien regresi sebagai berikut:

\(\beta_0 = 16.1360113\), \(\beta_1 = 1.1698379 (\text{Jumlah Jam Belajar})\), \(\beta_2 = 0.7744891 (\text{Tingkat Kehadiran})\).

Sehingga diperoleh persamaan regresi linier berganda sebagai berikut:

\[ \hat{Y} = 16.1360113 + 1.1698379X_1 + 0.7744891X_2 \] Berdasarkan persamaan regresi yang telah diperoleh, variabel jam belajar (\(X_1\)) menunjukkan pengaruh positif terhadap nilai ujian (\(Y\)). Hal ini berarti bahwa setiap kenaikan 1 jam/minggu jumlah jam belajar akan meningkatkan nilai ujian sebesar 1.1698379, dengan asumsi variabel tingkat kehadiran (\(X_2\)) konstan.

Sementara itu, variabel tingkat kehadiran (\(X_2\)) juga memiliki pengaruh positif terhadap nilai ujian (\(Y\)). Artinya, setiap kenaikan 1% tingkat kehadiran akan meningkatkan nilai ujian sebesar 0.7744891, dengan asumsi jumlah jam belajar (\(X_1\)) konstan.

Selain itu, nilai konstanta (intercept) sebesar 16.1360113 menunjukkan bahwa ketika jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) bernilai nol, maka nilai UAS diperkirakan sebesar 16.1360113. Meskipun demikian, interpretasi ini bersifat matematis dan tidak selalu memiliki makna praktis dalam konteks nyata. Dengan demikian, dapat disimpulkan bahwa jumlah jam belajar dan juga tingkat kehadiran sama sama berpengaruh terhadap nilai ujian.

Uji F (Uji Simultan)

Uji simultan atau overall F test digunakan untuk mengetahui apakah seluruh variabel bebas secara bersama-sama berpengaruh signifikan terhadap variabel terikat.

Adapun hipotesis yang digunakan ialah sebagai berikut:

\(H_0 : \beta_1 = \beta_2 = 0\)
(Jumlah jam belajar dan tingkat kehadiran secara bersama-sama tidak berpengaruh terhadap nilai ujian)

\(H_1 : \text{minimal terdapat satu } \beta_i \neq 0\)
(Jumlah jam belajar dan tingkat kehadiran secara bersama-sama berpengaruh terhadap nilai ujian)

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Prediksi dan residual
Y_hat <- X %*% beta_manual
residuals <- Y-Y_hat

# Menghitung jumlah kuadrat
mean_y <- mean(Y)
SST <- sum((Y-mean_y)^2) #SST=JKT
SSR <- sum((Y_hat-mean_y)^2) #SSR=JKR
SSE <- sum((Y-Y_hat)^2) #SSE=JKE=JKG

# Derajat kebebasan
df_reg <- ncol(X)-1
df_err <- n -ncol(X)
df_tot <- n-1

# Mean Square
MSR <- SSR/df_reg
MSE <- SSE/df_err

# Uji F (simultan)
F_value <- MSR/MSE
F_value

## [1] 5172.116

p_value_F <- pf(F_value, df_reg, df_err, lower.tail = FALSE)
p_value_F

## [1] 8.042129e-12

Berdasarkan hasil tersebut, diperoleh nilai F-statistic sebesar 5172.116 dengan p-value sebesar 8.042129e-12. Dengan menggunakan tingkat signifikansi \(\alpha = 0.05\), diketahui bahwa \(p-value < 0,05\), sehingga tolak \(H_0\). Hal ini menunjukkan bahwa secara simultan variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) memiliki pengaruh yang signifikan terhadap nilai ujian (\(Y\)). Dengan demikian, model regresi linier berganda yang digunakan dapat dinyatakan layak untuk menjelaskan hubungan antara variabel independen dan variabel dependen.

Uji t (Uji Parsial)

Uji parsial digunakan untuk mengukur pengaruh masing-masing variabel bebas terhadap variabel terikat secara individu. Dalam regresi berganda, tiap variabel independen memiliki pengaruh yang berbeda, sehingga pengujian secara individu diperlukan untuk menilai kontribusinya terhadap model.

Adapun hipotesis yang digunakan ialah sebagai berikut:

Variabel Jumlah Jam Belajar (\(X_1\)):

\(\begin{aligned} H_0 &: \beta_1 = 0 \quad (\text{Jumlah jam belajar tidak berpengaruh terhadap nilai ujian}) \\ H_1 &: \beta_1 \neq 0 \quad (\text{Jumlah jam belajar berpengaruh terhadap nilai ujian}) \end{aligned}\)

Variabel Tingkat Kehadiran (\(X_2\)):

\(\begin{aligned} H_0 &: \beta_1 = 0 \quad (\text{Tingkat Kehadiran tidak berpengaruh terhadap nilai ujian}) \\ H_1 &: \beta_1 \neq 0 \quad (\text{Tingkat kehadiran berpengaruh terhadap nilai ujian}) \end{aligned}\)

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Varians error
sigma2 <- MSE

# (X'X)^(-1)
XtX_inv <- solve(t(X) %*% X)

# Varians-kovarians beta
var_beta <- sigma2 * XtX_inv

# Standard error tiap koefisien
se_beta <- sqrt(diag(var_beta))

# Nilai t hitung
t_value <- beta_manual / se_beta
t_value

##         [,1]
##     5.688154
## X1  4.201468
## X2 13.900261

# p-value uji t (dua sisi)
p_value_t <- 2 * pt(abs(t_value), df = df_err, lower.tail = FALSE)
p_value_t

##            [,1]
##    7.444177e-04
## X1 4.028204e-03
## X2 2.357834e-06

Berdasarkan output tersebut, dapat disimpulkan bahwa variabel jumlah jam belajar (\(X_1\)) memiliki nilai p-value sebesar 4.028204e-03 (< 0,05), sehingga tolak \(H_0\). Hal ini berarti bahwa jumlah jam belajar berpengaruh signifikan terhadap nilai ujian. Sementara itu, variabel tingkat kehadiran (\(X_2\)) memiliki p-value sebesar 2.357834e-06 (< 0,05), sehingga tolak \(H_0\). Hal ini menunjukkan bahwa tingkat kehadiran memberikan pengaruh yang signifikan terhadap nilai ujian.

Koefisien Determinasi

Koefisien Determinasi (KD) atau R-squared (\(R^2\)) digunakan untuk mengetahui sejauh mana variabel bebas dalam model regresi mampu menjelaskan variabel terikat. Jika nilai \(R^2\) mendekati 0, berarti kemampuan variabel bebas dalam menjelaskan variabel terikat sangat terbatas. Sebaliknya, jika nilai \(R^2\) mendekati 1, berarti model memiliki kemampuan tinggi dalam menjelaskan variasi pada variabel terikat.

# Koefisien determinasi (R^2)
R2 <- SSR / SST                 # R^2 = JKR / JKT
R2

## [1] 0.9993238

# Adjusted R^2
Adj_R2 <- 1 - ((SSE / df_err) / (SST / df_tot))  # Adjusted R^2
Adj_R2

## [1] 0.9991305

Berdasarkan hasil output regresi, diperoleh nilai koefisien determinasi (\(R^2\)) sebesar 0.9993238 dan Adjusted \(R^2\) sebesar 0.9991305. Nilai \(R^2\) sebesar 0.9991305 menjelaskan bahwa 99.91% variasi nilai ujian (\(Y\)) dapat dijelaskan oleh variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) dalam model regresi yang digunakan. Sementara itu, sebesar 9% sisanya dipengaruhi oleh faktor lain di luar model yang tidak termasuk dalam penelitian ini.

Adapun nilai Adjusted \(R^2\) sebesar 0.9991305 menunjukkan bahwa sekitar 99.91% variasi nilai ujian masih mampu dijelaskan oleh model. Nilai ini memberikan gambaran yang lebih akurat mengenai kemampuan model dalam menjelaskan variabel dependen.

Fungsi LM

Selain dilakukan secara manual, perhitungan estimasi parameter, nilai F hitung, nilai t hitung, dan juga koefisien determinasi pada regresi linier berganda dapat diperoleh dengan menggunakan fungsi lm() dalam perangkat lunak R. Fungsi ini memungkinkan pembentukan model regresi secara otomatis dengan metode Ordinary Least Squares (OLS), sehingga nilai koefisien regresi, uji signifikansi, serta ukuran kebaikan model dapat diperoleh dengan lebih cepat dan efisien.

model <- lm(Y ~ X1 + X2, data=data)
summary(model)

## 
## Call:
## lm(formula = Y ~ X1 + X2, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31078 -0.14588 -0.05074  0.04440  0.56237 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.13601    2.83677   5.688 0.000744 ***
## X1           1.16984    0.27844   4.201 0.004028 ** 
## X2           0.77449    0.05572  13.900 2.36e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared:  0.9993, Adjusted R-squared:  0.9991 
## F-statistic:  5172 on 2 and 7 DF,  p-value: 8.042e-12

Berdasarkan hasil perhitungan dengan menggunakan fungsi lm(), diperoleh persamaan regresi linier berganda sebagai berikut:

\[ \hat{Y} = 16.13601 + 1.16984X_1 + 0.77449X_2 \] Berdasarkan hasil yang diperoleh, baik melalui perhitungan manual maupun menggunakan fungsi lm, keduanya memberikan hasil yang sama. Hal ini dapat dilihat dari kesamaan persamaan regresi, nilai koefisien regresi, serta arah dan besarnya pengaruh masing-masing variabel independen terhadap variabel dependen.

Selain itu, hasil uji parsial (uji t) dari kedua metode juga menunjukkan hasil yang konsisten, yaitu nilai variabel \(X_1\) dan \(X_2\) sama-sama berpengaruh signifikan terhadap \(Y\) hal ini dikarenakan nilai p-value keduanya lebih kecil dari tingkat signifikansi 0,05. Begitu pula pada uji simultan (uji F), kedua pendekatan menghasilkan hasil yang sama yaitu bahwa model regresi secara keseluruhan signifikan.

Nilai koefisien determinasi (\(R^2\)) dan Adjusted \(R^2\) dari kedua metode juga menghasilkan hasil yang sama yaitu masing-masing sebesar 0,9993 dan 0,9991, yang menunjukkan bahwa model mampu menjelaskan variasi \(Y\) dengan sangat baik.

Dengan demikian, dapat disimpulkan bahwa perhitungan manual telah sesuai dan terverifikasi oleh output fungsi lm(), sehingga model regresi yang dihasilkan dapat diandalkan untuk analisis selanjutnya.

Prediksi Nilai Ujian

Pada tahap ini, dilakukan proses prediksi nilai ujian mahasiswa dengan menggunakan model regresi yang telah dibentuk, yaitu dengan memasukkan variabel jumlah jam belajar sebesar 1 jam per minggu serta tingkat kehadiran sebesar 100% ke dalam model tersebut.

new_X <- matrix(c(1,1,100), nrow = 1)
Y_pred <- new_X %*% beta_manual
Y_pred

##          [,1]
## [1,] 94.75476

Berdasarkan hasil prediksi sebesar 94,75476, dapat diartikan bahwa mahasiswa dengan waktu belajar 1 jam per minggu dan tingkat kehadiran 100% diperkirakan memperoleh nilai ujian sekitar 94,75.

Hal ini menunjukkan bahwa meskipun waktu belajar tergolong rendah, tingkat kehadiran yang tinggi memberikan pengaruh yang sangat besar terhadap peningkatan nilai ujian. Dengan demikian, kehadiran menjadi faktor yang sangat penting dalam memengaruhi hasil belajar mahasiswa dalam model ini.

Selain itu, mengingat model regresi memiliki nilai koefisien determinasi yang sangat tinggi, hasil prediksi tersebut dapat dianggap cukup akurat dalam menggambarkan hubungan antara waktu belajar, kehadiran, dan nilai ujian.