Pengantar Model Linier

Pendahuluan

Analisis ini bertujuan untuk mengetahui pengaruh jumlah jam belajar (X1) dan tingkat kehadiran (X2) terhadap nilai ujian (Y) menggunakan metode regresi linear berganda. Model ini digunakan untuk melihat hubungan simultan maupun parsial antara variabel independen terhadap variabel dependen.

Input Data

Y  <- matrix(c(65, 70, 75, 80, 85, 78, 72, 90, 88, 95), ncol = 1)
X1 <- c(2, 3, 4, 5, 6, 5, 3, 7, 6, 8)
X2 <- c(60, 65, 70, 75, 80, 72, 68, 85, 83, 90)

X <- cbind(1, X1, X2)

n <- nrow(X)
k <- 2

Data yang digunakan dalam analisis ini terdiri dari 10 observasi dengan 2 variabel independen. Variabel X1 merepresentasikan jumlah jam belajar per minggu, sedangkan variabel X2 menunjukkan tingkat kehadiran dalam bentuk persentase. Variabel dependen Y merupakan nilai ujian yang diperoleh oleh masing-masing individu.

Estimasi Model OLS Berbasis Matriks

beta_hat <- solve(t(X) %*% X) %*% t(X) %*% Y
rownames(beta_hat) <- c("Intercept", "X1", "X2")
colnames(beta_hat) <- "Koefisien"
beta_hat

##            Koefisien
## Intercept 16.1360113
## X1         1.1698379
## X2         0.7744891

Berdasarkan hasil estimasi menggunakan metode Ordinary Least Squares (OLS) berbasis matriks, diperoleh model regresi linear berganda yang dapat dituliskan sebagai berikut:``` \[ Y = 16.136 + 1.17X_1 + 0.774X_2 \] Nilai konstanta sebesar 16.136 menunjukkan nilai ujian yang diperkirakan ketika jumlah jam belajar dan tingkat kehadiran bernilai nol. Koefisien regresi untuk X1 sebesar 1.17 menunjukkan bahwa setiap kenaikan satu jam belajar per minggu akan meningkatkan nilai ujian sebesar nilai tersebut dengan asumsi variabel lain tetap. Sementara itu, koefisien regresi untuk X2 sebesar 0.774 menunjukkan bahwa setiap peningkatan satu persen tingkat kehadiran akan meningkatkan nilai ujian sebesar nilai tersebut, dengan asumsi variabel lainnya konstan.

Uji F (Simultan)

Y_hat <- X %*% beta_hat
e <- Y - Y_hat
Y_mean <- mean(Y)

SST <- sum((Y - Y_mean)^2)
SSE <- sum(e^2)
SSR <- SST - SSE
MSR <- SSR / k
MSE <- SSE / (n - k - 1)

F_hitung <- MSR / MSE
F_tabel <- qf(0.95, df1 = k, df2 = n - k - 1)

F_hitung

## [1] 5172.116

F_tabel

## [1] 4.737414

Nilai F-hitung yang diperoleh adalah sebesar 5172.116 sedangkan nilai F-tabel pada taraf signifikansi 5% adalah sebesar 4.737. Karena nilai F-hitung lebih besar dibandingkan dengan F-tabel, maka dapat disimpulkan bahwa secara simultan variabel jumlah jam belajar dan tingkat kehadiran memiliki pengaruh yang signifikan terhadap nilai ujian. Hal ini menunjukkan bahwa model regresi yang dibangun layak digunakan untuk menjelaskan hubungan antara variabel-variabel tersebut.

Uji t (Parsial)

var_beta <- MSE * solve(t(X) %*% X)
se_beta <- sqrt(diag(var_beta))
t_hitung <- beta_hat / se_beta
t_tabel <- qt(0.975, df = n - k - 1)

p_value <- 2 * pt(-abs(t_hitung), df = n - k - 1)

hasil_t <- data.frame(
  Koefisien = beta_hat,
  Std_Error = se_beta,
  t_hitung = t_hitung,
  p_value = p_value
)

rownames(hasil_t) <- c("Intercept", "X1", "X2")
hasil_t

##            Koefisien  Std_Error Koefisien.1  Koefisien.2
## Intercept 16.1360113 2.83677490    5.688154 7.444177e-04
## X1         1.1698379 0.27843551    4.201468 4.028204e-03
## X2         0.7744891 0.05571759   13.900261 2.357834e-06

Nilai t-tabel yang digunakan dalam pengujian ini adalah sebesar 2.365. Untuk variabel X1, diperoleh nilai t-hitung sebesar 4.201 dengan p-value sebesar 0.004. Nilai tersebut menunjukkan bahwa |t-hitung| lebih besar dari t-tabel dan p-value lebih kecil dari 0.05, sehingga dapat disimpulkan bahwa jumlah jam belajar berpengaruh signifikan terhadap nilai ujian. Untuk variabel X2, diperoleh nilai t-hitung sebesar 13.9 dengan p-value sebesar 0, yang juga memenuhi kriteria signifikansi. Dengan demikian, dapat disimpulkan bahwa tingkat kehadiran juga memiliki pengaruh yang signifikan terhadap nilai ujian.

Koefisien Determinasi

R2 <- SSR / SST
Adj_R2 <- 1 - ((SSE / (n - k - 1)) / (SST / (n - 1)))

R2

## [1] 0.9993238

Adj_R2

## [1] 0.9991305

Nilai koefisien determinasi (R²) yang diperoleh adalah sebesar 0.9993 yang berarti bahwa sebesar 99.93% variasi nilai ujian dapat dijelaskan oleh variasi jumlah jam belajar dan tingkat kehadiran. Sementara itu, nilai Adjusted R² sebesar 0.9991 menunjukkan bahwa setelah dilakukan penyesuaian terhadap jumlah variabel dalam model, kemampuan model dalam menjelaskan variasi data tetap tinggi. Hal ini mengindikasikan bahwa model yang dibangun memiliki tingkat kecocokan yang baik terhadap data.

Validasi dengan Fungsi lm()

model <- lm(Y ~ X1 + X2)
summary(model)

## 
## Call:
## lm(formula = Y ~ X1 + X2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31078 -0.14588 -0.05074  0.04440  0.56237 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.13601    2.83677   5.688 0.000744 ***
## X1           1.16984    0.27844   4.201 0.004028 ** 
## X2           0.77449    0.05572  13.900 2.36e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared:  0.9993, Adjusted R-squared:  0.9991 
## F-statistic:  5172 on 2 and 7 DF,  p-value: 8.042e-12

Hasil estimasi menggunakan fungsi lm() menunjukkan nilai koefisien regresi, nilai R², serta hasil uji signifikansi yang konsisten dengan perhitungan manual sebelumnya. Konsistensi ini menunjukkan bahwa perhitungan yang dilakukan menggunakan pendekatan matriks telah dilakukan dengan benar dan model yang dihasilkan dapat dipercaya.

Prediksi

x_baru <- matrix(c(1, 1, 100), nrow = 1)
y_prediksi <- x_baru %*% beta_hat
y_prediksi

##      Koefisien
## [1,]  94.75476

Berdasarkan model regresi yang diperoleh, hasil prediksi nilai ujian untuk kondisi jumlah jam belajar sebesar 1 jam per minggu dan tingkat kehadiran sebesar 100% adalah sebesar 94.755. Nilai ini menunjukkan estimasi performa akademik yang dapat dicapai berdasarkan kombinasi variabel independen yang diberikan.

Kesimpulan

Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, dapat disimpulkan bahwa variabel jumlah jam belajar dan tingkat kehadiran memiliki pengaruh yang signifikan terhadap nilai ujian, baik secara simultan maupun parsial. Model yang dihasilkan juga memiliki kemampuan yang baik dalam menjelaskan variasi data, yang ditunjukkan oleh nilai koefisien determinasi yang tinggi. Dengan demikian, model regresi ini dapat digunakan sebagai alat untuk memahami hubungan antar variabel serta untuk melakukan prediksi nilai ujian berdasarkan faktor-faktor yang mempengaruhinya.