Data
Seorang peneliti ingin menganalisis faktor-faktor yang mempengaruhi nilai ujian mahasiswa (Y). Diduga bahwa nilai ujian dipengaruhi oleh: X1 = jumlah jam belajar (jam/minggu) X2 = tingkat kehadiran (%) Peneliti mengumpulkan data dari 10 mahasiswa sebagai berikut:
| No | Y | (X1) | (X2) |
|---|---|---|---|
| 1 | 65 | 2 | 60 |
| 2 | 70 | 3 | 65 |
| 3 | 75 | 4 | 70 |
| 4 | 80 | 5 | 75 |
| 5 | 85 | 6 | 80 |
| 6 | 78 | 5 | 72 |
| 7 | 72 | 3 | 68 |
| 8 | 90 | 7 | 85 |
| 9 | 88 | 6 | 83 |
| 10 | 95 | 8 | 90 |
Pertanyaan
Berikut adalah pertanyaan untuk data yang telah diberikan :
- Estimasikan model regresi linier berganda menggunakan metode OLS berbasis matriks dan interpretasikan hasilnya?
- Hitung Uji F dan uji t secara manual dan interpretasikan hasilnya?
- Hitung nilai R² dan Adjusted R² secara manual dan interpretasikan hasilnya?
- Bandingkan hasil no 1 s.d 3 dengan fungsi lm.
- Prediksikan nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu namun kehadirannya 100%?
Pengerjaan studi kasus
Input Data
Y <- c(65,70,75,80,85,78,72,90,88,95)
X1 <- c(2,3,4,5,6,5,3,7,6,8)
X2 <- c(60,65,70,75,80,72,68,85,83,90)
data <- data.frame(Y, X1, X2)
data## Y X1 X2
## 1 65 2 60
## 2 70 3 65
## 3 75 4 70
## 4 80 5 75
## 5 85 6 80
## 6 78 5 72
## 7 72 3 68
## 8 90 7 85
## 9 88 6 83
## 10 95 8 90
1. Estimasikan model regresi linier berganda menggunakan metode OLS berbasis matriks dan interpretasikan hasilnya?
Cara Manual :
Model regresi linier berganda:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon \]
Estimasi parameter menggunakan:
\[ \hat{\beta} = (X^T X)^{-1} X^T Y \]
Maka:
XtX <- t(X) %*% X
XtX_inv <- solve(XtX)
XtY <- t(X) %*% Y_mat
beta_hat <- solve(t(X) %*% X) %*% t(X) %*% Y
beta_hat## [,1]
## 16.1360113
## X1 1.1698379
## X2 0.7744891
Dari perintah diatas di peroleh hasil :
\[ \hat{Y} = 16.136 + 1.170 X_1 + 0.774 X_2 \]
Interpretasi:
- \(\beta_0 = 16.136\) merupakan konstanta model.
- \(\beta_1 = 1.170\) menunjukkan bahwa setiap kenaikan 1 jam belajar meningkatkan nilai ujian sebesar 1.17 poin.
- \(\beta_2 = 0.774\) menunjukkan bahwa setiap kenaikan 1% kehadiran meningkatkan nilai ujian sebesar 0.77 poin.
Kedua variabel memiliki pengaruh positif terhadap nilai ujian.
Berdasarkan persamaan regresi yang telah diperoleh, variabel jam belajar (\(X_1\)) menunjukkan pengaruh positif terhadap nilai ujian (\(Y\)). Hal ini berarti bahwa setiap kenaikan 1 jam/minggu jumlah jam belajar akan meningkatkan nilai ujian sebesar 1.1698379, dengan asumsi variabel tingkat kehadiran (\(X_2\)) konstan.
Sementara itu, variabel tingkat kehadiran (\(X_2\)) juga memiliki pengaruh positif terhadap nilai ujian (\(Y\)). Artinya, setiap kenaikan 1% tingkat kehadiran akan meningkatkan nilai ujian sebesar 0.7744891, dengan asumsi jumlah jam belajar (\(X_1\)) konstan.
Selain itu, nilai konstanta (intercept) sebesar 16.1360113 menunjukkan bahwa ketika jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) bernilai nol, maka nilai UAS diperkirakan sebesar 16.1360113. Meskipun demikian, interpretasi ini bersifat matematis dan tidak selalu memiliki makna praktis dalam konteks nyata. Dengan demikian, dapat disimpulkan bahwa jumlah jam belajar dan juga tingkat kehadiran sama sama berpengaruh terhadap nilai ujian.
Prediksi dan Residual:
## [,1]
## [1,] 64.94503
## [2,] 69.98732
## [3,] 75.02960
## [4,] 80.07188
## [5,] 85.11416
## [6,] 77.74841
## [7,] 72.31078
## [8,] 90.15645
## [9,] 87.43763
## [10,] 95.19873
## [,1]
## [1,] 0.05496829
## [2,] 0.01268499
## [3,] -0.02959831
## [4,] -0.07188161
## [5,] -0.11416490
## [6,] 0.25158562
## [7,] -0.31078224
## [8,] -0.15644820
## [9,] 0.56236786
## [10,] -0.19873150
Nilai prediksi sangat mendekati nilai aktual, dan residual relatif kecil, menunjukkan model memiliki akurasi tinggi.
2. Hitung Uji F dan uji t secara manual dan interpretasikan hasilnya?
Variansi :
Y_mean <- mean(Y)
SST <- sum((Y - Y_mean)^2)
SSE <- sum(residual^2)
SSR <- sum((Y_hat - Y_mean)^2)
SST## [1] 831.6
## [1] 831.0376
## [1] 0.5623679
Uji F (Simultan)
Adapun hipotesis yang digunakan ialah sebagai berikut:
## [1] 5172.116
df1 <- k
df2 <- n - k - 1
alpha <- 0.05
p_value_F <- pf(F_hit, df1, df2, lower.tail = FALSE)
F_tabel <- qf(1 - alpha, df1, df2)
p_value_F## [1] 8.042129e-12
## [1] 4.737414
Interpretasi:
Berdasarkan hasil tersebut, diperoleh nilai F-statistic sebesar 5172.116 dengan p-value sebesar 8.042129e-12. Dengan menggunakan tingkat signifikansi \(\alpha = 0.05\), diketahui bahwa \(p-value < 0,05\), sehingga tolak \(H_0\). Hal ini menunjukkan bahwa secara simultan variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) memiliki pengaruh yang signifikan terhadap nilai ujian (\(Y\)). Dengan demikian, model regresi linier berganda yang digunakan dapat dinyatakan layak untuk menjelaskan hubungan antara variabel independen dan variabel dependen.
Uji t (Parsial)
Adapun hipotesis yang digunakan ialah sebagai berikut:
## X1 X2
## 2.83677490 0.27843551 0.05571759
## [,1]
## 5.688154
## X1 4.201468
## X2 13.900261
## [,1]
## 7.444177e-04
## X1 4.028204e-03
## X2 2.357834e-06
## [1] 2.364624
Interpretasi:
- Variabel \(X_1\) signifikan karena \(p\)-value < 0.05
- Variabel \(X_2\) sangat signifikan dan memiliki nilai \(t\) terbesar
Dengan demikian, kehadiran merupakan variabel yang paling dominan.
Berdasarkan output tersebut, dapat disimpulkan bahwa variabel jumlah jam belajar (\(X_1\)) memiliki nilai p-value sebesar 4.028204e-03 (< 0,05), sehingga tolak \(H_0\). Hal ini berarti bahwa jumlah jam belajar berpengaruh signifikan terhadap nilai ujian. Sementara itu, variabel tingkat kehadiran (\(X_2\)) memiliki p-value sebesar 2.357834e-06 (< 0,05), sehingga tolak \(H_0\). Hal ini menunjukkan bahwa tingkat kehadiran memberikan pengaruh yang signifikan terhadap nilai ujian.
3. Hitung nilai R² dan Adjusted R² secara manual dan interpretasikan hasilnya?
## [1] 0.9993238
## [1] 0.9991305
Interpretasi:
Berdasarkan hasil output regresi, diperoleh nilai koefisien determinasi (\(R^2\)) sebesar 0.9993238 dan Adjusted \(R^2\) sebesar 0.9991305. Nilai \(R^2\) sebesar 0.9991305 menjelaskan bahwa 99.91% variasi nilai ujian (\(Y\)) dapat dijelaskan oleh variabel jumlah jam belajar (\(X_1\)) dan tingkat kehadiran (\(X_2\)) dalam model regresi yang digunakan. Sementara itu, sebesar 9% sisanya dipengaruhi oleh faktor lain di luar model yang tidak termasuk dalam penelitian ini.
Adapun nilai Adjusted \(R^2\) sebesar 0.9991305 menunjukkan bahwa sekitar 99.91% variasi nilai ujian masih mampu dijelaskan oleh model. Nilai ini memberikan gambaran yang lebih akurat mengenai kemampuan model dalam menjelaskan variabel dependen.
4. Bandingkan hasil no 1 s.d 3 dengan fungsi lm
##
## Call:
## lm(formula = Y ~ X1 + X2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31078 -0.14588 -0.05074 0.04440 0.56237
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.13601 2.83677 5.688 0.000744 ***
## X1 1.16984 0.27844 4.201 0.004028 **
## X2 0.77449 0.05572 13.900 2.36e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared: 0.9993, Adjusted R-squared: 0.9991
## F-statistic: 5172 on 2 and 7 DF, p-value: 8.042e-12
Interpretasi :
Berdasarkan hasil yang diperoleh, baik melalui perhitungan manual maupun menggunakan fungsi lm, keduanya memberikan hasil yang sama. Hal ini dapat dilihat dari kesamaan persamaan regresi, nilai koefisien regresi, serta arah dan besarnya pengaruh masing-masing variabel independen terhadap variabel dependen.
Selain itu, hasil uji parsial (uji t) dari kedua metode juga menunjukkan hasil yang konsisten, yaitu nilai variabel \(X_1\) dan \(X_2\) sama-sama berpengaruh signifikan terhadap \(Y\) hal ini dikarenakan nilai p-value keduanya lebih kecil dari tingkat signifikansi 0,05. Begitu pula pada uji simultan (uji F), kedua pendekatan menghasilkan hasil yang sama yaitu bahwa model regresi secara keseluruhan signifikan.
Nilai koefisien determinasi (\(R^2\)) dan Adjusted \(R^2\) dari kedua metode juga menghasilkan hasil yang sama yaitu masing-masing sebesar 0,9993 dan 0,9991, yang menunjukkan bahwa model mampu menjelaskan variasi \(Y\) dengan sangat baik
5. Prediksikan nilai ujian mahasiswa jika jumlah jam belajar 1 jam/minggu namun kehadirannya 100%?
Untuk \(X_1 = 1\) dan \(X_2 = 100\):
## [,1]
## [1,] 94.75476
Berdasarkan hasil prediksi sebesar 94,75476, dapat diartikan bahwa mahasiswa dengan waktu belajar 1 jam per minggu dan tingkat kehadiran 100% diperkirakan memperoleh nilai ujian sekitar 94,75.
Hal ini menunjukkan bahwa meskipun waktu belajar tergolong rendah, tingkat kehadiran yang tinggi memberikan pengaruh yang sangat besar terhadap peningkatan nilai ujian. Dengan demikian, kehadiran menjadi faktor yang sangat penting dalam memengaruhi hasil belajar mahasiswa dalam model ini.
Selain itu, mengingat model regresi memiliki nilai koefisien determinasi yang sangat tinggi, hasil prediksi tersebut dapat dianggap cukup akurat dalam menggambarkan hubungan antara waktu belajar, kehadiran, dan nilai ujian.