Tugas Pengantar Model Linier-Regresi Linier Berganda

Input Data

Diberikan data mengenai seorang peneliti yang ingin menganalisis faktor-faktor yang mempengaruhi nilai ujian mahasiswa (Y). Diduga bahwa nilai ujian dipengaruhi oleh jumah jam belajar (jam/minggu) dan tingkat kehadiran (%). Dengan nilai ujian mahaisiswa sebagai variabel dependen (Y), jumlah jam belajar (jam/minggu) sebagai variabel independen (X1), serta tingkat kehadiran (%) sebagai variabel independen (X2). Peneliti tersebut mengumpulkan data sample sebanyak 10 mahasiswa

# Input data
# Data
Y  <- c(65, 70, 75, 80, 85, 78, 72, 90, 88, 95)
X1 <- c(2, 3, 4, 5, 6, 5, 3, 7, 6, 8)
X2 <- c(60, 65, 70, 75, 80, 72, 68, 85, 83, 90)

n <- length(Y)
k <- 2 # Jumlah variabel independen

Estimasi Model Regresi Linier Berganda dengan Metode OLS

Berikut estimasi model regresi linier berganda dengan mengestimasi nilai beta dengan menggunakan metode Ordinary Least Square (OLS).

# Matriks X
X_mat <- cbind(1, X1, X2)
colnames(X_mat) <- c("Intercept", "X1", "X2")

# Matriks Y
Y_mat <- matrix(Y, ncol = 1)

# Estimasi beta
beta_hat <- solve(t(X_mat) %*% X_mat) %*% t(X_mat) %*% Y_mat
beta_hat

##                 [,1]
## Intercept 16.1360113
## X1         1.1698379
## X2         0.7744891

Dari estimasi nilai beta tersebut diperoleh estimasi model persamaan regresi linier berganda sebagai berikut:

\(\hat{Y} = 16.1360113 + 1.1698379X_1 + 0.7744891X_2 + \epsilon\)

Dengan interpretasi sebagai berikut:

\(\beta_0\) = 16.1360113, artinya jika jumlah jam belajar dan tingkat kehadiran diasumsikan bernilai 0, maka nilai ujian mahasiswa yang diprediksi adalah sebesar 16.1360113 satuan.
\(\beta_1\) = 1.1698379, artinya setiap kenaikan 1 jam/minggu pada jumlah jam belajar maka akan meningkatkan nilai ujian mahasiswa sebesar 1.1698379 satuan dimana variabel lain dianggap tetap.
\(\beta_2\) = 0.7744891, artinya setiap kenaikan tingkat kehadiran sebesar 1% maka akan meingkatkan nilai ujian mahasiswa sebesar 0.7744891 satuan dimana variabel lain dianggap tetap.

Uji Hipotesis Regresi Linier Berganda

Uji Simultan (Uji F)

Setelah didapatkan model regresi linier berganda, selanjutnya dilakukan prosedur uji simultan sebagai berikut.

Hipotesis:

\(H_0: \beta_1 = \beta_2 = 0\) (Tidak terdapat pengaruh jumlah jam belajar dan tingkat kehadiran secara simultan terhadap nilai ujian mahasiswa)

\(H_1: \text{minimal ada satu } \beta_i \neq 0\) (Terdapat pengaruh jumlah jam belajar dan tingkat kehadiran secara simultan terhadap nilai ujian mahasiswa)

Taraf Nyata:

α = 0.05

Statistik Uji:

# Prediksi
Y_hat <- X_mat %*% beta_hat
# Residual
e <- Y_mat - Y_hat
# Rata-rata Y
Y_mean <- mean(Y)
# SST (Sum of Squares Total)
SST <- sum((Y-Y_mean)^2)
# SSE (Sum of Squares Error)
SSE <- sum(e^2)
# SSR (Sum of squares Regression)
SSR <- SST-SSE
# Degree of freedom
df_R <- k
df_E <- n-k-1
df_T <- n-1
# MSR
MSR <- SSR/df_R
# MSE ()
MSE <- SSE/df_E

# Uji simultan (Uji F)
F_hitung <- MSR / MSE
F_tabel  <- qf(0.95, df1 = df_R, df2 = df_E)
p_value_F <- pf(F_hitung, df1 = df_R, df2 = df_E, lower.tail = F)
F_hitung

## [1] 5172.116

F_tabel

## [1] 4.737414

p_value_F

## [1] 8.042129e-12

Kriteria Penolakan:

Tolak H0 jika:

F hitung > F tabel, atau

p-value < α

Keputusan:

F hitung (5172.116) > F tabel (4.737414) -> Tolak H0

p-value (8.042129e-12) < α (0.05) -> Tolak H0

Kesimpulan:

Berdasarkan hasil uji F pada taraf nyata 5%, diperoleh bahwa model regresi secara keseluruhan sangat signifikan. Hal ini menunjukkan bahwa variabel jumlah jam belajar dan tingkat kehadiran secara bersama-sama memiliki pengaruh yang nyata terhadap nilai ujian mahasiswa. Dengan demikian, perubahan pada kedua variabel tersebut secara simultan akan berdampak terhadap perubahan nilai ujian mahasiswa. Artinya, model regresi yang dibangun mampu menjelaskan hubungan antara jumlah jam belajar dan tingkat kehadiran dengan nilai ujian mahasiswa secara kolektif, sehingga model layak digunakan untuk analisis dan penarikan kesimpulan lebih lanjut.

Uji Parsial (Uji t)

Setelah dilakukan uji simultan dan didapatkan hasil yang signifikan, selanjutnya dilakukan prosedur uji parsial sebagai berikut.

Hipotesis:

Jumlah jam belajar (X1)

\(H_0: \beta_1 = 0\) (Tidak terdapat pengaruh jumlah jam belajar terhadap nilai ujian mahasiswa)

\(H_1: \beta_1 \neq 0\) (Terdapat pengaruh jumlah jam belajar terhadap nilai ujian mahasiswa)

Tingkat kehadiran (X2)

\(H_0: \beta_2 = 0\) (Tidak terdapat pengaruh tingkat kehadiran terhadap nilai ujian mahasiswa)

\(H_1: \beta_2 \neq 0\) (Terdapat pengaruh tingkat kehadiran terhadap nilai ujian mahasiswa)

Taraf Nyata:

α = 0.05

Statistik Uji:

# Uji Parsial (Uji t)
SE_beta <- sqrt(diag(solve(t(X_mat) %*% X_mat)) * MSE)
t_hitung <- beta_hat / SE_beta
t_tabel  <- qt(0.975, df = df_E) 
p_value_t <- 2 * pt(abs(t_hitung), df = df_E, lower.tail = F)
t_hitung

##                [,1]
## Intercept  5.688154
## X1         4.201468
## X2        13.900261

t_tabel

## [1] 2.364624

p_value_t

##                   [,1]
## Intercept 7.444177e-04
## X1        4.028204e-03
## X2        2.357834e-06

Kriteria Penolakan:

Tolak H0 jika:

|t hitung| > t tabel, atau

p-value < 0.05

Keputusan:

Jumlah jam belajar (X1)

t hitung (|4.201468|) > t tabel (2.364624) -> Tolak H0

p-value (4.028204e-03) < α (0.05) -> Tolak H0
Tingkat kehadiran (X2)

t hitung (|13.900261|) > t tabel (2.364624) -> Tolak H0

p-value (2.357834e-06) < α (0.05) -> Tolak H0

Kesimpulan:

Berdasarkan hasil uji t pada taraf nyata 5%, diperoleh bahwa variabel jumlah jam belajar dan tingkat kehadiran sama-sama memiliki pengaruh yang signifikan terhadap nilai ujian mahasiswa. Secara parsial, kedua variabel tersebut terbukti berkontribusi secara nyata dalam menjelaskan variasi nilai ujian, di mana peningkatan jumlah jam belajar cenderung diikuti dengan peningkatan nilai ujian, dan demikian pula semakin tinggi tingkat kehadiran mahasiswa maka nilai yang diperoleh juga cenderung meningkat. Selain itu, jika dibandingkan, variabel tingkat kehadiran memiliki pengaruh yang lebih kuat terhadap nilai ujian, yang tercermin dari nilai t yang lebih besar dan p-value yang lebih kecil, sehingga dapat dikatakan bahwa kehadiran merupakan faktor yang lebih dominan dalam model dibandingkan jumlah jam belajar.

Koefisien Determinasi

Setelah dilakukan uji simultan dan uji parsial, selanjutnya dilakukan analisis koefisien determinasi untuk mengetahui seberapa besar kemampuan variabel independen dalam menjelaskan variasi pada variabel dependen.

# Koefisien determinasi
R2 <- SSR / SST
adj_R2 <- 1 - (SSE/(df_E)) / (SST/df_T)
R2

## [1] 0.9993238

adj_R2

## [1] 0.9991305

Berdasarkan hasil perhitungan, diperoleh nilai koefisien determinasi \(R^2\) sebesar 0.9993238 yang menunjukkan bahwa sekitar 99.93% variasi nilai ujian mahasiswa dapat dijelaskan oleh variabel jumlah jam belajar dan tingkat kehadiran dalam model regresi yang dibangun. Hal ini mengindikasikan bahwa model memiliki kemampuan yang sangat tinggi (hampir sempurna) dalam menjelaskan hubungan antara variabel independen dengan variabel dependen. Sementara itu, hanya sekitar 0.07% variasi nilai ujian yang dipengaruhi oleh faktor lain di luar model, seperti halnya motivasi belajar, metode pembelajaran, atau faktor individu lainnya yang tidak dimasukkan dalam analisis.

Selanjutnya Nilai Adjusted \(R^2\) sebesar 0.9991305 menunjukkan bahwa setelah dilakukan penyesuaian terhadap jumlah variabel independen dan ukuran sampel, model masih mampu menjelaskan sebesar 99.91% variasi nilai ujian. Nilai ini sangat mendekati \(R^2\), yang merupakan indikasi bahwa variabel yang digunakan dalam model memang relevan dan tidak menyebabkan overfitting yang berarti. Selisih yang sangat kecil antara \(R^2\) dan Adjusted \(R^2\) menunjukkan bahwa model stabil dan memiliki kemampuan prediktif yang sangat baik. Dengan demikian, model regresi yang terbentuk dapat dikatakan sangat andal dalam menjelaskan variasi nilai ujian mahasiswa berdasarkan jumlah jam belajar dan tingkat kehadiran.

Perbandingan Metode Manual dengan Metode Fungsi lm

Setelah melakukan perhitungan dengan metode manual, selanjutnya dilakukan verifikasi dan perbandingan dengan menggunakan fungsi lm.

# Estimasi model regresi linier berganda dengan fungsi lm
# Dengan fungsi lm
model <- lm(Y ~ X1 + X2)
summary(model)

## 
## Call:
## lm(formula = Y ~ X1 + X2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31078 -0.14588 -0.05074  0.04440  0.56237 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.13601    2.83677   5.688 0.000744 ***
## X1           1.16984    0.27844   4.201 0.004028 ** 
## X2           0.77449    0.05572  13.900 2.36e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared:  0.9993, Adjusted R-squared:  0.9991 
## F-statistic:  5172 on 2 and 7 DF,  p-value: 8.042e-12

# Uji simultan (uji F) dengan fungsi lm
summary(model)$fstatistic

##    value    numdf    dendf 
## 5172.116    2.000    7.000

# Uji parsial (uji t) dengan fungsi lm
summary(model)$coefficients

##               Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) 16.1360113 2.83677490  5.688154 7.444177e-04
## X1           1.1698379 0.27843551  4.201468 4.028204e-03
## X2           0.7744891 0.05571759 13.900261 2.357834e-06

# Koefisien determinasi dengan fungsi lm
summary(model)$r.squared

## [1] 0.9993238

summary(model)$adj.r.squared

## [1] 0.9991305

Berdasarkan hasil perbandingan antara perhitungan manual menggunakan metode OLS dengan hasil dari fungsi lm di R, diperoleh bahwa nilai koefisien regresi (\(\beta\)), statistik uji F, Statistik uji t, \(R^2\), dan Adjusted \(R^2\) menunjukkan hasil yang sama. Hal ini menandakan bahwa perhitungan manual yang dilakukan telah sesuai dengan teori estimasi parameter regresi linier dan diimplementasikan dengan benar. Dengan demikian, fungsi lm pada R pada dasarnya mengadopsi prinsip yang sama, yaitu metode Ordinary Least Squares (OLS), sehingga menghasilkan output yang konsisten dengan perhitungan manual.

Kesamaan hasil ini juga mengindikasikan bahwa tidak terdapat kesalahan dalam proses pembentukan model maupun dalam penentuan komponen-komponen statistik seperti SSE, SSR, dan varians error. Oleh karena itu, dapat disimpulkan bahwa model regresi yang diperoleh bersifat valid secara perhitungan, penggunaan fungsi lm dapat dijadikan sebagai alat verifikasi yang praktis dan andal terhadap hasil perhitungan manual, serta interpretasi yang telah dijabarkan sebelumnya adalah interpretasi yang valid.

Prediksi Nilai

Berikut prediksi nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu dan kehadiran 100%.

# Prediksi dengan X1=1 jam dan X2=100%
x_new  <- matrix(c(1, 1, 100), nrow = 1)
Y_pred <- x_new %*% beta_hat
Y_pred

##          [,1]
## [1,] 94.75476

Berdasarkan hasil prediksi menggunakan model regresi linier berganda yang telah dibangun, diperoleh bahwa nilai ujian mahasiswa diperkirakan sebesar 94.75476 ketika jumlah jam belajar sebesar 1 jam per minggu dan tingkat kehadiran mencapai 100%. Hasil ini menunjukkan bahwa meskipun waktu belajar relatif sangat sedikit, tingkat kehadiran yang tinggi memberikan kontribusi yang sangat besar terhadap peningkatan nilai ujian. Hal ini sejalan dengan hasil analisis sebelumnya yang menunjukkan bahwa variabel kehadiran memiliki pengaruh yang lebih dominan dibandingkan jumlah jam belajar. Dengan demikian, dalam konteks model ini, kehadiran yang optimal dapat secara signifikan meningkatkan performa akademik mahasiswa, bahkan ketika faktor jam belajar berada pada tingkat yang rendah.