Tugas Pengantar Model Linier

1 Studi Kasus

Seorang peneliti ingin menganalisis faktor-faktor yang mempengaruhi nilai ujian mahasiswa (\(Y\)). Diduga bahwa nilai ujian dipengaruhi oleh:

\(X_1\) = jumlah jam belajar (jam/minggu)

\(X_2\) = tingkat kehadiran (%)

Peneliti mengumpulkan data dari 10 mahasiswa sebagai berikut:

library(knitr)
library(kableExtra)

df <- data.frame(
  No = 1:10,
  Y  = c(65, 70, 75, 80, 85, 78, 72, 90, 88, 95),
  X1 = c(2, 3, 4, 5, 6, 5, 3, 7, 6, 8),
  X2 = c(60, 65, 70, 75, 80, 72, 68, 85, 83, 90)
)

df %>%
  kable(col.names = c("No", "Nilai ($Y$)", "Jam Belajar ($X_1$)", "Kehadiran (%) ($X_2$)"),
        align = "c") %>%
  kable_styling(bootstrap_options = c("striped", "bordered"), full_width = FALSE)

No	Nilai (\(Y\))	Jam Belajar (\(X_1\))	Kehadiran (%) (\(X_2\))
1	65	2	60
2	70	3	65
3	75	4	70
4	80	5	75
5	85	6	80
6	78	5	72
7	72	3	68
8	90	7	85
9	88	6	83
10	95	8	90

Pertanyaan:

Estimasikan model regresi linier berganda menggunakan metode OLS berbasis matriks dan interpretasikan hasilnya.
Hitung Uji \(F\) dan uji \(t\) secara manual dan interpretasikan hasilnya.
Hitung nilai \(R^2\) dan Adjusted \(R^2\) secara manual dan interpretasikan hasilnya.
Bandingkan hasil no 1 s.d 3 dengan fungsi lm.
Prediksikan nilai ujian mahasiswa jika jumlah jam belajar \(1\) jam/minggu namun kehadirannya \(100%\)

2 Penyelesaian

2.1 Estimasi Model Regresi Linier Berganda (OLS Matriks)

Tahapan awal dalam analisis ini adalah melakukan estimasi parameter model regresi linier berganda. Metode yang digunakan adalah Ordinary Least Squares (OLS) dengan pendekatan aljabar matriks, yang bertujuan untuk meminimalkan jumlah kuadrat galat (Sum of Squares Error) sehingga diperoleh garis regresi yang paling merepresentasikan sebaran data. Model yang mendasari analisis ini melibatkan satu variabel dependen (\(Y\)) dan dua variabel independen (\(X_1\) dan \(X_2\)), yang dirumuskan sebagai berikut:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon \]

Estimasi parameter dilakukan dengan rumus:

\[ \hat{\beta} = (X^T X)^{-1} X^T Y \] Proses perhitungan dilakukan menggunakan perangkat lunak R dengan sintaks sebagai berikut:

Y <- matrix(df$Y, ncol = 1)
X1 <- df$X1
X2 <- df$X2

X <- cbind(1, X1, X2)

beta_hat <- solve(t(X) %*% X) %*% t(X) %*% Y
beta_hat

##          [,1]
##    16.1360113
## X1  1.1698379
## X2  0.7744891

Berdasarkan hasil perhitungan di atas, diperoleh estimasi parameter untuk konstanta dan koefisien regresi. Persamaan regresi linear berganda yang terbentuk adalah:

\[ Y = 16.1360 + 1.1698 X_1 + 0.7744 X_2 \] Interpretasi Model:

Konstanta (\(\beta_0 = 16.1360\)): Nilai ini menunjukkan bahwa jika variabel \(X_1\) dan \(X_2\) bernilai nol (atau tetap), maka rata-rata nilai variabel dependen (\(Y\)) diperkirakan sebesar 16.1360 satuan.
Koefisien Regresi \(X_1\) (\(\beta_1 = 1.1698\)): Koefisien positif sebesar 1.1698 menunjukkan adanya hubungan searah antara \(X_1\) dan \(Y\). Artinya, setiap penambahan satu jam waktu belajar akan menyebabkan kenaikan variabel \(Y\) sebesar 1.1698 poin, dengan asumsi variabel tingkat kehadiran bernilai tetap.
Koefisien Regresi \(X_2\) (\(\beta_2 = 0.7744\)): Demikian pula dengan variabel \(X_2\), koefisien sebesar 0.7744 menunjukkan bahwa setiap satu persen tingkat kehadiran mahasiswa di kelas akan diikuti dengan kenaikan variabel \(Y\) sebesar 0.7744 poin, dengan asumsi variabel waktu belajar tidak mengalami perubahan.

2.2 Uji F dan Uji t (Manual)

Pengujian ini dilakukan untuk mengetahui signifikansi model baik secara simultan maupun parsial. Sebelum melakukan uji, dihitung terlebih dahulu partisi jumlah kuadrat seperti SST, SSE, dan SSR.

Y_hat <- X %*% beta_hat
e <- Y - Y_hat

Y_mean <- mean(Y)

SST <- sum((Y - Y_mean)^2)
SSE <- sum(e^2)
SSR <- SST - SSE

n <- nrow(X)
k <- 2

Uji \(F\) (Simultan)

Uji F digunakan untuk mengetahui apakah variabel independen secara bersama-sama berpengaruh terhadap variabel dependen.Secara statistik, uji ini membandingkan varians yang berhasil dijelaskan oleh model regresi dengan varians yang berasal dari galat atau kesalahan (residual).

\[ F = \frac{SSR/k}{SSE/(n-k-1)} \]

F_hit <- (SSR/k) / (SSE/(n-k-1))
F_hit

## [1] 5172.116

# Mencari F tabel dengan alpha 0.05
# df1 = k = 2
# df2 = n - k - 1 = 10 - 2 - 1 = 7
f_tabel <- qf(p = 0.05, df1 = 2, df2 = 7, lower.tail = FALSE)
f_tabel

## [1] 4.737414

Berdasarkan hasil perhitungan di atas, diperoleh nilai \(F\)hitung sebesar 5172.116 dan nilai \(F\)tabel dengan tingkat signifikansi 5% (\(\alpha = 0.05\)) adalah 4.737. Nilai \(F\) hitung jauh lebih besar daripada \(F\) tabel (\(F_{hit} > F_{tab}\)), maka tolak Hipotesis Nol (\(H_0\)) dan menerima Hipotesis Alternatif (\(H_a\)).

Dapat disimpulkan bahwa variabel jumlah jam belajar dan tingkat kehadiran mahasiswa dalam model ini secara simultan memiliki pengaruh yang sangat signifikan terhadap variabel dependen.

Uji \(t\)

Uji t digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen secara parsial.

\[ t_i = \frac{\hat{\beta_i}}{SE(\hat{\beta_i})} \]

sigma2 <- SSE/(n-k-1)

var_beta <- sigma2 * solve(t(X) %*% X)
SE_beta <- sqrt(diag(var_beta))

t_hit <- beta_hat / SE_beta
t_hit

##         [,1]
##     5.688154
## X1  4.201468
## X2 13.900261

# Mencari t tabel untuk uji dua arah (two-tailed)
# alpha = 0.05, maka p = 0.05/2 = 0.025
# df = n - k - 1 = 10 - 2 - 1 = 7

t_tabel <- qt(p = 0.05/2, df = 7, lower.tail = FALSE)
t_tabel

## [1] 2.364624

Berdasarkan hasil perhitungan, diperoleh nilai \(t\) hitung untuk variabel \(X_1\) sebesar 4.201 dan variabel \(X_2\) sebesar 13.900. Jika dibandingkan dengan nilai \(t\) tabel pada tingkat signifikansi 5% (\(\alpha = 0.05\)) dan derajat bebas 7 yang bernilai 2.3646, maka seluruh nilai \(t\) hitung variabel independen lebih besar daripada \(t\) tabel (\(t_{hit} > t_{tab}\)). Selain itu, konstanta model juga menunjukkan nilai \(t\) hitung (5.688) yang melampaui nilai kritis tersebut.Oleh karena itu, keputusan yang diambil adalah menolak Hipotesis Nol (\(H_0\)) untuk setiap parameter dalam model.

Secara parsial, setiap variabel independen (jumlah jam belajar dan tingkat kehadiran mahasiswa) terbukti memiliki pengaruh yang signifikan terhadap variabel dependen.

2.3 Koefisien Determinasi

Koefisien determinasi merupakan parameter penting dalam analisis regresi yang berfungsi untuk mengukur sejauh mana model statistik yang dibentuk mampu merepresentasikan data yang diobservasi. Pada dasarnya, nilai ini menunjukkan proporsi dari total variasi variabel dependen (Y) yang dapat dijelaskan oleh variabel-variabel independen (X) di dalam model.

Koefisien Determinasi (\(R^2\))

\[ R^2 = \frac{SSR}{SST} \]

R2 <- SSR / SST
R2

## [1] 0.9993238

Berdasarkan perhitungan, didapatkan nilai \(R^2 = 0.9993238\).Nilai ini menunjukkan bahwa sebesar 99,93% variasi dari variabel dependen dapat dijelaskan oleh variabel-variabel independen yang ada dalam model. Sisanya, yaitu sebesar 0,07%, dijelaskan oleh faktor-faktor lain di luar model atau dipengaruhi oleh galat (error) acak. Angka yang sangat mendekati 1 ini menandakan bahwa model memiliki tingkat kesesuaian (goodness of fit) yang sangat tinggi atau hampir sempurna.

Adjusted \(R^2\)

Adjusted \(R^2\) digunakan untuk memperbaiki nilai \(R^2\) dengan mempertimbangkan jumlah variabel independen dalam model.

\[ R^2 = \frac{SSR}{SST} \]

Adj_R2 <- 1 - ((SSE/(n-k-1)) / (SST/(n-1)))
Adj_R2

## [1] 0.9991305

Berdasarkan hasil pengolahan data, nilai Adjusted \(R^2\) adalah 0.9991305.Setelah dilakukan penyesuaian terhadap jumlah variabel independen yang digunakan, model tetap mampu menjelaskan 99,91% variasi variabel dependen. Nilai Adjusted \(R^2\) yang sangat dekat dengan nilai \(R^2\) (hanya selisih tipis di angka desimal ketiga) menunjukkan bahwa variabel-variabel independen yang dimasukkan ke dalam model memang benar-benar memiliki kontribusi yang nyata dan signifikan, bukan sekadar penambahan variabel yang sia-sia.

2.4 Perbandingan dengan fungsi lm()

Untuk memastikan keakuratan seluruh proses perhitungan manual yang telah dilakukan, mulai dari estimasi parameter menggunakan pendekatan matriks hingga pengujian hipotesis, dilakukan validasi menggunakan fungsi bawaan R, yaitu lm(). Tahap ini bertujuan untuk mengecek apakah perhitungan manual yang digunakan telah sesuai dengan fungsi lm() bawaan r.

Hasil yang diperoleh dari fungsi lm() menunjukkan kesesuaian dengan perhitungan manual, yaitu:

model <- lm(Y ~ X1 + X2)
summary(model)

## 
## Call:
## lm(formula = Y ~ X1 + X2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31078 -0.14588 -0.05074  0.04440  0.56237 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.13601    2.83677   5.688 0.000744 ***
## X1           1.16984    0.27844   4.201 0.004028 ** 
## X2           0.77449    0.05572  13.900 2.36e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2834 on 7 degrees of freedom
## Multiple R-squared:  0.9993, Adjusted R-squared:  0.9991 
## F-statistic:  5172 on 2 and 7 DF,  p-value: 8.042e-12

Interpretasi :

Estimasi Parameter (\(\beta\)): Nilai koefisien untuk konstanta sebesar 16.13601, variabel jumlah jam belajar sebesar 1.16984, serta variabel tingkat kehadiran sebesar 0.77449 pada output lm() menunjukkan hasil yang identik dengan perhitungan matriks.
Uji Parsial (Uji t): Nilai Standard Error dan \(t_{hitung}\) yang dihasilkan oleh fungsi lm() menunjukkan angka yang sama persis dengan hasil perhitungan manual melalui akar diagonal matriks varians-kovarians. Selain itu, nilai \(p\)-value yang sangat kecil menguatkan keputusan untuk menolak \(H_0\) pada tingkat signifikansi 5%.
Kesesuaian Model (Uji F dan \(R^2\)): Statistik F yang bernilai 5172 beserta nilai Multiple R-squared sebesar 0.9993 dan Adjusted R-squared sebesar 0.9991 memberikan hasil yang sepenuhnya konsisten tanpa adanya deviasi atau perbedaan angka.

Secara keseluruhan, tidak terdapat perbedaan antara hasil perhitungan manual dengan hasil yang diperoleh melalui fungsi lm(). Konsistensi ini menunjukkan bahwa model regresi yang dibangun memiliki tingkat akurasi yang tinggi.

2.5 Prediksi

Pada tahap ini dilakukan prediksi nilai ujian mahasiswa berdasarkan nilai variabel Setelah model regresi linear berganda dinyatakan valid dan memiliki tingkat kesesuaian yang sangat tinggi, tahap selanjutnya adalah memanfaatkan model tersebut untuk estimasi atau prediksi.

Diketahui:

\(X_1 = 1\)

\(X_2 = 100\)

Proses prediksi ini dilakukan dengan menyubstitusikan nilai-nilai tersebut ke dalam persamaan regresi yang telah dibentuk sebelumnya:

\[\hat{Y} = 16.1360 + 1.1698(X_1) + 0.7744(X_2)\]

Jika kita masukkan angka yang diketahui ke dalam model:

\[\hat{Y} = 16.1360 + 1.1698(1) + 0.7744(100)\]

Berdasarkan perhitungan menggunakan fungsi predict() di R, diperoleh hasil sebagai berikut:

predict(model, newdata = data.frame(X1 = 1, X2 = 100))

##        1 
## 94.75476

Berdasarkan hasil pengolahan data, model memprediksi bahwa seorang mahasiswa yang mengalokasikan waktu 1 jam untuk belajar namun memiliki tingkat kehadiran sempurna sebesar 100%, diperkirakan akan memperoleh nilai ujian sebesar 94.75.

Hasil ini mencerminkan bagaimana kontribusi masing-masing variabel independen bekerja secara simultan terhadap variabel dependen. Konstanta dasar sebesar 16.1360 memberikan titik awal, yang kemudian ditingkatkan secara signifikan oleh pengaruh positif dari kedua variabel bebas, terutama oleh variabel \(X_2\) yang memiliki bobot pengali yang besar.