Analisis Regresi Linier

SOAL

Input data

Y <- c(65,70,75,80,85,78,72,90,88,95) 
X1 <- c(2,3,4,5,6,5,3,7,6,8) 
X2 <- c(60,65,70,75,80,72,68,85,83,90) 
data <- data.frame(Y,X1,X2) 
data

##     Y X1 X2
## 1  65  2 60
## 2  70  3 65
## 3  75  4 70
## 4  80  5 75
## 5  85  6 80
## 6  78  5 72
## 7  72  3 68
## 8  90  7 85
## 9  88  6 83
## 10 95  8 90

1. Estimasi Regresi Linier Berganda (OLS Matriks)

Model: \[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \varepsilon_i \]

# Matriks X (dengan intercept)
X <- cbind(1, X1, X2)

# Matriks Y
Y_mat <- as.matrix(Y)

# Mengitung beta OLS
beta <- solve(t(X) %*% X) %*% t(X) %*% Y_mat
beta

##          [,1]
##    16.1360113
## X1  1.1698379
## X2  0.7744891

model <- lm(Y ~ X1 + X2, data = data)

\[ \hat{Y} = 16.136 + 1.169X_1 + 0.774X_2 \]

interpretasi: Koefisien X1 sebesar 1.1698 berarti setiap kenaikan 1 jam belajar, nilai ujian meningkat sebesar 1.1698 poin, dengan asumsi variabel lain konstan. Koefisien X2 sebesar 0.7744 berarti setiap kenaikan 1% kehadiran, nilai ujian meningkat sebesar 0.7744 poin, dengan asumsi variabel lain konstan. Konstanta sebesar 16.136 menunjukkan nilai ujian ketika X1 dan X2 = 0

2. Uji F dan Uji t manual

#Uji t

Hipotesis: \[ H_0 : \beta_i = 0 \]

\[ H_1 : \beta_i \neq 0 \]

beta <- coef(model)
se <- summary(model)$coefficients[,2]

t_manual <- beta / se
t_manual

## (Intercept)          X1          X2 
##    5.688154    4.201468   13.900261

Interpretasi:

Variabel X1 memiliki nilai t hitung sebesar 4.201 dengan p-value < 0.05, sehingga berpengaruh signifikan terhadap nilai ujian.
Variabel X2 memiliki nilai t hitung sebesar 13.900 dengan p-value < 0.05, sehingga berpengaruh signifikan terhadap nilai ujian.

Dengan tingkat signifikansi 5%, kedua variabel terbukti signifikan karena memiliki p-value < 0.05, sehingga H0 di tolak untuk masing-masing variabel.

#Uji F Hipotesis: \[ H_0 : \beta_1 = \beta_2 = 0 \]

\[ H_1 : \text{Minimal ada satu } \beta_i \neq 0 \]

R2 <- summary(model)$r.squared
n <- length(Y)
k <- 2

F_manual <- (R2 / k) / ((1 - R2) / (n - k - 1))
F_manual

## [1] 5172.116

\[ F_{\text{hitung}} = 5172.116 \]

\[ \text{p-value} = 8.042129 \times 10^{-12} \]

\[ \text{Karena p-value} < 0.05, \text{ maka } H_0 \text{ ditolak.} \] Interpretasi: Nilai ini menunjukkan bahwa model regresi signifikan secara simultan, sehingga variabel X1 dan X2 secara bersama-sama berpengaruh terhadap nilai ujian.

3. Koefisien Determinasi (R² dan Adjusted R²)

# Prediksi Y
Y_pred <- X %*% beta

# Hitung SSE dan SST
SSE <- sum((Y - Y_pred)^2)
SST <- sum((Y - mean(Y))^2)

# R-squared
R2_manual <- 1 - (SSE/SST)
R2_manual

## [1] 0.9993238

# Adjusted R-squared
n <- length(Y)
k <- 2

Adj_R2_manual <- 1 - ((SSE/(n-k-1)) / (SST/(n-1)))
Adj_R2_manual

## [1] 0.9991305

Interpretasi:

Nilai koefisien determinasi (R²) sebesar 0.9993 menunjukkan bahwa sebesar 99.93% variasi nilai ujian dapat dijelaskan oleh variabel jumlah jam belajar (X1) dan tingkat kehadiran (X2).
Sedangkan nilai Adjusted R² sebesar 0.9991 menunjukkan bahwa setelah penyesuaian terhadap jumlah variabel, model masih mampu menjelaskan sekitar 99.91% variasi nilai ujian.

Hal ini menunjukkan bahwa model memiliki kemampuan penjelasan yang sangat baik.

4. Membandingkan hasil no 1-3 dgn fungsi lm

model <- lm(Y ~ X1 + X2, data = data)
coef(model)

## (Intercept)          X1          X2 
##  16.1360113   1.1698379   0.7744891

Interpretasi: Hasil estimasi menggunakan metode matriks menghasilkan koefisien yang sama dengan fungsi lm() di R, sehingga dapat disimpulkan bahwa perhitungan telah dilakukan dengan benar.

5. Prediksi nilai ujian mahasiswa

predict(model, data.frame(X1=1, X2=100))

##        1 
## 94.75476

Interpretasi: Berdasarkan hasil prediksi, jika mahasiswa belajar selama 1 jam per minggu dan memiliki tingkat kehadiran 100%, maka nilai ujian yang diprediksi adalah sebesar 94.75476

Kesimpulan:

Hasil analisis regresi linier berganda menunjukkan bahwa Variabel jumlah jam belajar (X1) dan tingkat kehadiran (X2) keduanya berpengaruh signifikan terhadap nilai ujian mahasiswa. Secara keseluruhan, model regresi yang digunakan signifikan dan memiliki nilai koefisien determinasi yang tinggi, sehingga mampu menjelaskan variasi nilai ujian dengan sangat baik.