Pendahuluan
Dalam proses pembelajaran, capaian akademik siswa umumnya dipengaruhi oleh banyak faktor. Dua faktor yang sering dianggap penting adalah tingkat kecerdasan (IQ) dan kehadiran di kelas. IQ menggambarkan kemampuan kognitif untuk memahami materi, sedangkan kehadiran berkaitan dengan keterlibatan siswa dalam proses belajar, seperti mengikuti penjelasan, diskusi, dan latihan. Karena itu, menarik untuk menguji apakah IQ dan kehadiran memiliki hubungan yang bermakna terhadap nilai Ujian Akhir Semester (UAS).
Diberikan data tentang IQ dan tingkat kehadiran sepuluh siswa di kelas yang diperkirakan mempengaruhi nilai UAS:
| Siswa | IQ (X2) | Tingkat Kehadiran (%) (X1) | Nilai UAS (Y) |
|---|---|---|---|
| 1 | 110 | 60 | 65 |
| 2 | 120 | 70 | 70 |
| 3 | 115 | 75 | 75 |
| 4 | 130 | 80 | 75 |
| 5 | 110 | 80 | 80 |
| 6 | 120 | 90 | 80 |
| 7 | 120 | 95 | 85 |
| 8 | 125 | 95 | 95 |
| 9 | 110 | 100 | 90 |
| 10 | 120 | 100 | 98 |
Pada studi kasus ini diberikan data 10 siswa yang memuat nilai IQ dan tingkat kehadiran (%) yang diduga memengaruhi nilai UAS. Analisis dilakukan menggunakan regresi linier berganda untuk:
- Menentukan persamaan regresi linier berganda yang menghubungkan
kehadiran dan IQ dengan nilai UAS.
- Menguji pengaruh kedua prediktor secara simultan
melalui uji F.
- Menguji pengaruh masing-masing prediktor secara
parsial melalui uji t.
- Mengukur kemampuan model dalam menjelaskan variasi UAS melalui
koefisien determinasi (R²).
- Melakukan uji asumsi klasik agar hasil estimasi dan inferensi dapat dipercaya.
Load library dan input data
Asumsi tipe data:
IQ,kehadiran, danUASbertipe numeric (cek denganstr(df)), karena regresi OLS dan perhitungan matriks membutuhkan input numerik.
library(lmtest)
library(car)
library(DT)
df <- tibble(
siswa = 1:10,
IQ = c(110, 120, 115, 130, 110, 120, 120, 125, 110, 120),
kehadiran = c( 60, 70, 75, 80, 80, 90, 95, 95, 100, 100),
UAS = c( 65, 70, 75, 75, 80, 80, 85, 95, 90, 98)
)
str(df)
## tibble [10 × 4] (S3: tbl_df/tbl/data.frame)
## $ siswa : int [1:10] 1 2 3 4 5 6 7 8 9 10
## $ IQ : num [1:10] 110 120 115 130 110 120 120 125 110 120
## $ kehadiran: num [1:10] 60 70 75 80 80 90 95 95 100 100
## $ UAS : num [1:10] 65 70 75 75 80 80 85 95 90 98
datatable(df, options = list(pageLength = 5))
Ringkasan rentang data:
df %>%
summarise(
IQ_min = min(IQ), IQ_max = max(IQ),
Keh_min = min(kehadiran), Keh_max = max(kehadiran),
UAS_min = min(UAS), UAS_max = max(UAS)
)
Persamaan regresi linier berganda
Regresi linier berganda digunakan untuk memodelkan hubungan antara satu variabel respons \((Y)\) dan dua atau lebih variabel prediktor \((X)\). Secara umum, model dituliskan:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon \]
dengan:
- \(Y\) = nilai UAS
- \(X_1\) = tingkat kehadiran
(%)
- \(X_2\) = IQ
- \(\beta_0\) = intersep
- \(\beta_1, \beta_2\) = koefisien
regresi
- \(\varepsilon\) = error/residual
Makna koefisien (inti interpretasi): - \(\beta_1\): perubahan rata-rata UAS ketika kehadiran naik 1% dengan IQ tetap. - \(\beta_2\): perubahan rata-rata UAS ketika IQ naik 1 poin dengan kehadiran tetap.
Perhitungan matriks secara manual
Koefisien OLS dapat dihitung dengan pendekatan matriks:
\[ \hat{\beta} = (X^TX)^{-1}X^TY \]
# Matriks desain X (kolom 1 untuk intercept)
X <- cbind(1, df$kehadiran, df$IQ)
# Vektor respons Y
Y <- as.matrix(df$UAS)
# Estimasi koefisien dengan OLS (metode matriks)
beta_manual <- solve(t(X) %*% X) %*% t(X) %*% Y
beta_manual
## [,1]
## [1,] 23.0544545
## [2,] 0.7372330
## [3,] -0.0343275
Menggunakan fungsi lm()
model <- lm(UAS ~ kehadiran + IQ, data = df)
summary(model)
##
## Call:
## lm(formula = UAS ~ kehadiran + IQ, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.2861 -2.8939 0.0296 1.6791 6.1993
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.05445 25.57161 0.902 0.397247
## kehadiran 0.73723 0.10918 6.752 0.000264 ***
## IQ -0.03433 0.22051 -0.156 0.880686
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared: 0.8719, Adjusted R-squared: 0.8353
## F-statistic: 23.82 on 2 and 7 DF, p-value: 0.0007523
Untuk memastikan konsistensi, koefisien manual dibandingkan dengan
koefisien dari lm():
tibble(
parameter = c("(Intercept)", "kehadiran", "IQ"),
beta_manual = as.numeric(beta_manual),
beta_lm = as.numeric(coef(model)),
selisih = beta_manual - beta_lm
)
Berdasarkan output, koefisien dari perhitungan matriks dan
lm() sama (selisih mendekati nol). Dengan demikian,
persamaan regresi taksiran dapat ditulis:
\[ \hat{Y} = 23.054 + 0.737X_1 + -0.034X_2 \]
Berdasarkan hasil estimasi model regresi, diperoleh nilai intersep sebesar 23.054. Nilai ini menunjukkan prediksi nilai UAS ketika tingkat kehadiran dan IQ siswa bernilai nol; namun, secara praktis, ini sekadar interpretasi matematis dan umumnya tidak terjadi pada data nyata. Selanjutnya, koefisien variabel kehadiran sebesar 0.737 mengindikasikan bahwa setiap peningkatan kehadiran sebesar 1% diestimasi akan menaikkan nilai UAS sebesar 0.737 poin, dengan asumsi tingkat IQ siswa tetap (konstan). Sementara itu, koefisien variabel IQ sebesar -0.034 menunjukkan besaran perubahan nilai UAS untuk setiap kenaikan satu poin IQ, dengan asumsi tingkat kehadiran tidak mengalami perubahan.
Uji F simultan
Uji F digunakan untuk menguji apakah kedua prediktor (kehadiran dan IQ) secara bersama-sama memiliki pengaruh terhadap UAS.
Hipotesis:
- \(H_0: \beta_1 = \beta_2 = 0\) (tidak ada pengaruh simultan)
- \(H_1:\) minimal ada satu \(\beta \neq 0\) (ada pengaruh simultan)
fit <- glance(model)
fit %>% select(statistic, p.value)
Dengan \(\alpha = 0.05\), karena p-value = 7.523^{-4}, maka keputusan uji adalah:
alpha <- 0.05
tibble(
F_statistic = fit$statistic,
p_value = fit$p.value,
keputusan = ifelse(fit$p.value < alpha, "Tolak H0 (signifikan)", "Gagal tolak H0 (tidak signifikan)")
)
Berdasarkan hasil pengujian signifikansi secara simultan (Uji F), apabila diperoleh nilai probabilitas (p-value) yang lebih kecil dari tingkat kesalahan 0,05 (p-value < 0.05), maka dapat ditarik kesimpulan bahwa model regresi secara keseluruhan bersifat signifikan secara statistik; hal ini mengindikasikan bahwa kombinasi variabel independen, yakni tingkat kehadiran dan kecerdasan intelektual (IQ), terbukti memiliki hubungan yang nyata dan serentak dalam memengaruhi nilai Ujian Akhir Semester (UAS), sehingga model yang diestimasi dinilai valid, reliabel, dan sangat layak untuk digunakan sebagai instrumen analisis lanjutan maupun prediksi performa akademik.
Uji t parsial
Uji t digunakan untuk menguji pengaruh masing-masing prediktor ketika prediktor lain dikontrol.
Hipotesis untuk setiap prediktor:
- \(H_0: \beta_k = 0\)
- \(H_1: \beta_k \neq 0\)
coef_tab <- tidy(model)
coef_tab
Ringkasan keputusan (α = 0.05):
coef_tab %>%
filter(term %in% c("kehadiran", "IQ")) %>%
transmute(
variabel = term,
estimate = estimate,
p_value = p.value,
keputusan = ifelse(p.value < 0.05, "Signifikan", "Tidak signifikan")
)
Berdasarkan hasil pengujian signifikansi secara parsial, apabila variabel tingkat kehadiran menunjukkan hasil yang signifikan, hal ini mengindikasikan bahwa partisipasi di kelas memiliki pengaruh yang nyata terhadap nilai UAS, dengan asumsi variabel IQ telah dikontrol atau dianggap konstan. Sebaliknya, jika variabel IQ terbukti tidak signifikan, maka dapat disimpulkan bahwa secara empiris dalam cakupan data ini, IQ belum memberikan bukti yang cukup meyakinkan mengenai dampaknya terhadap nilai UAS setelah mengontrol faktor kehadiran. Kondisi ketidaksignifikanan ini secara metodologis sangat mungkin dilatarbelakangi oleh keterbatasan teknis penelitian, seperti ukuran sampel observasi yang terlalu kecil (hanya sepuluh siswa) ataupun kurangnya variasi dalam distribusi data yang dianalisis.
Koefisien determinasi
Koefisien determinasi mengukur seberapa baik model menjelaskan variasi nilai UAS.
Secara konsep: \[ R^2 = 1 - \frac{SSE}{SST} \] Nilai \(R^2\) berada pada rentang 0–1. Semakin besar \(R^2\), semakin besar proporsi variasi UAS yang dapat dijelaskan oleh kehadiran dan IQ.
fit %>% select(r.squared, adj.r.squared, sigma)
Interpretasi: - \(R^2 =\)
0.8719 berarti sekitar 87.19% variasi
UAS dapat dijelaskan oleh model. - Adjusted \(R^2 =\) 0.8353 adalah
versi yang sudah menyesuaikan jumlah prediktor (lebih konservatif). -
sigma adalah simpangan baku residual (perkiraan rata-rata
besar kesalahan prediksi dalam satuan nilai UAS).
Uji asumsi klasik
Uji asumsi klasik dilakukan untuk menilai apakah model OLS memenuhi syarat-syarat dasar sehingga hasil uji t dan uji F dapat diandalkan.
Normalitas residual (Shapiro–Wilk)
sh <- shapiro.test(residuals(model))
sh
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.95125, p-value = 0.6833
Keputusan (α = 0.05): p-value = 0.6833 →
- p-value > 0.05: residual dapat dianggap berdistribusi normal
(asumsi normalitas terpenuhi).
Multikolinearitas (VIF)
vif_val <- vif(model)
vif_val
## kehadiran IQ
## 1.055571 1.055571
Jika semua VIF < 10 (atau lebih ketat < 5), maka tidak ada indikasi multikolinearitas yang mengganggu.
Heteroskedastisitas
Pemeriksaan grafik residual
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))
Jika titik menyebar acak tanpa pola jelas, maka varians residual cenderung konstan.
Uji Breusch–Pagan
bp <- bptest(model)
bp
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 5.905, df = 2, p-value = 0.05221
Keputusan (α = 0.05): p-value = 0.05221 →
- p-value > 0.05: tidak ada bukti heteroskedastisitas.
Autokorelasi residual (Durbin–Watson)
dw <- dwtest(model)
dw
##
## Durbin-Watson test
##
## data: model
## DW = 2.594, p-value = 0.8013
## alternative hypothesis: true autocorrelation is greater than 0
Keputusan (α = 0.05): p-value = 0.8013 →
- p-value > 0.05: tidak ada bukti autokorelasi residual.
Catatan: uji Durbin–Watson paling relevan pada data runtun waktu. Untuk data siswa (cross-section), autokorelasi biasanya bukan isu utama, tetapi tetap ditampilkan jika diminta dalam tugas.
Kesimpulan
Berdasarkan hasil analisis regresi linier berganda terhadap data 10 observasi siswa, dapat ditarik beberapa kesimpulan utama sebagai berikut:
Persamaan Regresi dan Arah Hubungan: Model regresi yang terbentuk adalah \(\hat{Y} = 23.054 + 0.737 X_1 + -0.034 X_2\). Hasil estimasi menunjukkan bahwa tingkat kehadiran memiliki koefisien positif yang dominan. Artinya, semakin tinggi persentase kehadiran seorang siswa, semakin tinggi pula estimasi nilai UAS yang akan diperolehnya, dengan asumsi tingkat IQ konstan.
Pengaruh Simultan (Uji F): Secara bersama-sama, tingkat kehadiran dan IQ terbukti memiliki pengaruh yang signifikan terhadap nilai UAS. Hal ini dibuktikan oleh nilai p-value pada Uji F sebesar 7.523^{-4} yang lebih kecil dari tingkat signifikansi \(\alpha = 0.05\). Model ini dinilai layak (fit) untuk menjelaskan variasi performa akademik siswa.
Pengaruh Parsial (Uji t): Pengujian secara parsial menunjukkan hasil yang berbeda untuk kedua prediktor:
Tingkat Kehadiran (\(X_1\)) berpengaruh positif dan signifikan secara statistik terhadap nilai UAS (p-value = 2.644^{-4}). Keterlibatan aktif siswa di kelas terbukti menjadi faktor krusial dalam menentukan hasil ujian.
IQ (\(X_2\)) secara empiris pada sampel ini tidak menunjukkan pengaruh yang signifikan terhadap nilai UAS ketika variabel kehadiran telah dikontrol (p-value = 0.8807). Kondisi ini kemungkinan besar disebabkan oleh ukuran sampel yang terlalu kecil (hanya 10 siswa) atau kurangnya variasi data IQ pada observasi tersebut.
Kemampuan Menjelaskan Model (Koefisien Determinasi): Nilai \(R^2\) menunjukkan angka sebesar 0.8719 (sekitar 87.19%), yang berarti mayoritas variasi pada nilai UAS dapat dijelaskan dengan sangat baik oleh variasi pada tingkat kehadiran dan IQ siswa. Hanya sebagian kecil sisanya (12.81%) yang dijelaskan oleh faktor lain di luar model ini.
Validitas Model (Uji Asumsi Klasik): Model regresi yang dihasilkan telah dievaluasi dan diindikasikan memenuhi kriteria asumsi klasik utama: Normalitas residual (p-value = 0.683), non-Multikolinearitas, Homoskedastisitas (p-value Uji BP = 0.0522), dan non-Autokorelasi (p-value Uji DW = 0.801). Oleh karena itu, estimasi koefisien dan hasil uji hipotesis (F dan t) dapat dianggap valid, unbiased, dan dapat diandalkan (Best Linear Unbiased Estimator / BLUE).