Analisis Regresi Linier Berganda Pengaruh IQ dan Tingkat Kehadiran terhadap Nilai UAS Siswa

Regresi Linier Berganda merupakan salah satu metode statistik yang digunakan untuk melakukan peramalan ketika terdapat satu variabel terikat (dependen) dan lebih dari satu variabel bebas (independen). Analisis ini bertujuan untuk mengetahui arah dan kekuatan hubungan antara variabel-variabel tersebut, apakah bersifat positif atau negatif, serta memprediksi perubahan pada variabel terikat akibat kenaikan atau penurunan nilai variabel bebas.

Adapun bentuk umum persamaan Regresi Linier Berganda dapat dinyatakan sebagai berikut:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_n X_{ni} + e_i \] Dimana:
- \(Y\) = variabel dependen
- \(\beta_0\) = konstanta regresi (intersep), yaitu kondisi nilai \(Y\) ketika semua nilai \(X = 0\)
- \(\beta_1\) = koefisien regresi dari masing-masing variabel bebas
- \(X_1\) = variabel bebas (independent variabel)
- \(e\) = error

Analisis Persamaan Regresi Linier Berganda

Berdasarkan konsep regresi linier berganda yang telah dijelaskan sebelumnya, analisis ini dapat diterapkan pada permasalahan nyata untuk mengetahui hubungan antar variabel.

Dalam bidang pendidikan, hasil belajar siswa tidak hanya dipengaruhi oleh satu faktor, melainkan oleh berbagai faktor yang saling berkaitan. Dua faktor yang sering diperhatikan adalah tingkat kecerdasan intelektual (IQ) dan tingkat kehadiran di kelas. Pada studi kasus ini, digunakan data IQ dan tingkat kehadiran dari sepuluh siswa yang diduga memengaruhi nilai UAS. Variabel yang dianalisis meliputi IQ (\(X_2\)) dan tingkat kehadiran (\(X_1\)) sebagai variabel independen, serta nilai UAS (\(Y\)) sebagai variabel dependen.

Data tersebut disusun dalam file Excel dan digunakan sebagai dasar dalam proses analisis, sehingga memudahkan pengolahan serta perhitungan menggunakan perangkat lunak R.

library(readxl)

data <- read_xlsx("Studi Kasus Regresi Linier Berganda IQ, Kehadiran, dan Nilai UAS.xlsx", sheet = "Sheet1")
DT::datatable(data)

Berdasarkan data tersebut, dilakukan beberapa tahapan analisis sebagai berikut:

Menentukan persamaan regresi linier berganda, baik secara manual maupun menggunakan fungsi di R.
Melakukan uji F beserta interpretasinya.
Melakukan uji t beserta interpretasinya.
Menentukan koefisien determinasi serta interpretasinya.
Melakukan pengujian asumsi klasik dan menjelaskan hasilnya.

Cara Manual

Pendugaan parameter dalam regresi linier berganda dilakukan dengan menggunakan Metode Kuadrat Terkecil (MKT) atau Ordinary Least Squares (OLS). Metode ini bertujuan untuk memperoleh nilai koefisien regresi yang meminimalkan jumlah kuadrat galat (residual) antara nilai aktual dan nilai prediksi. Secara matematis, estimasi parameter regresi dapat dinyatakan sebagai berikut: \[ \hat{\beta} = (X'X)^{-1}X'Y \] di mana \(X\) merupakan matriks variabel independen, \(X'\) adalah transpose dari \(X\), \(X'X\) adalah hasil perkalian yang membentuk matriks persegi, \((X'X)^{-1}\) merupakan invers dari matriks tersebut, dan \(X'Y\) adalah hasil perkalian antara \(X'\) dengan variabel dependen \(Y\).

# Definisi Variabel
Y <- as.matrix(data$Nilai_UAS)               # Variabel dependen (respon)
X1 <- data$Tingkat_Kehadiran                 # Variabel independen 1
X2 <- data$IQ                                # Variabel independen 2
n <- length(Y)                               # Jumlah observasi

# Matriks Desain
X <- cbind(1, X1, X2) #intercept + variabel dependen

# Transpose matriks X (X')
Xt <- t(X)
Xt

##    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
##       1    1    1    1    1    1    1    1    1     1
## X1   60   70   75   80   80   90   95   95  100   100
## X2  110  120  115  130  110  120  120  125  110   120

# Perkalian X'X
XtX <- Xt %*% X
XtX

##            X1     X2
##      10   845   1180
## X1  845 73075  99900
## X2 1180 99900 139650

# Invers dari (X'X)
XtX_inv <- solve(XtX)
XtX_inv

##                           X1            X2
##    34.62208967 -0.0188185492 -0.2790840870
## X1 -0.01881855  0.0006311333 -0.0002924764
## X2 -0.27908409 -0.0002924764  0.0025745622

# Perkalian X'Y
XtY <- Xt %*% Y
XtY

##     [,1]
##      813
## X1 69925
## X2 96060

# Estimasi koefisien regresi β
beta_manual <- XtX_inv %*% XtY
beta_manual

##          [,1]
##    23.0544545
## X1  0.7372330
## X2 -0.0343275

Dari hasil perhitungan diperoleh koefisien regresi sebagai berikut:

\(\beta_0 = 23.05445\), \(\beta_1 = 0.73723 (\text{Tingkat Kehadiran})\), \(\beta_2 = -0.03433 (\text{IQ})\).

Sehingga diperoleh persamaan regresi linier berganda sebagai berikut:

\[ \hat{Y} = 23.05445 + 0.73723X_1 - 0.03433X_2 \]

Fungsi LM

Selain dilakukan secara manual, estimasi parameter pada regresi linier berganda juga dapat diperoleh dengan menggunakan fungsi lm() dalam perangkat lunak R. Fungsi ini memungkinkan pembentukan model regresi secara otomatis dengan metode Ordinary Least Squares (OLS), sehingga nilai koefisien regresi, uji signifikansi, serta ukuran kebaikan model dapat diperoleh dengan lebih cepat dan efisien.

model <- lm(Nilai_UAS ~ Tingkat_Kehadiran + IQ, data=data)
summary(model)

## 
## Call:
## lm(formula = Nilai_UAS ~ Tingkat_Kehadiran + IQ, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       23.05445   25.57161   0.902 0.397247    
## Tingkat_Kehadiran  0.73723    0.10918   6.752 0.000264 ***
## IQ                -0.03433    0.22051  -0.156 0.880686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Berdasarkan hasil perhitungan dengan menggunakan fungsi lm(), diperoleh persamaan regresi linier berganda sebagai berikut:

\[ \hat{Y} = 23.05445 + 0.73723X_1 - 0.03433X_2 \]

Berdasarkan hasil yang diperoleh, baik dengan menggunakan cara manual maupun dengan menggunakan fungsi lm, nilai koefisien regresi dari kedua metode menunjukkan hasil yang sama, yaitu:

\(\beta_0 = 23.05445\), \(\beta_1 = 0.73723 (\text{Tingkat Kehadiran})\), \(\beta_2 = -0.03433 (\text{IQ})\).

Sehingga persamaan regresi yang diperoleh yaitu: \[\hat{Y} = 23.05445 + 0.73723X_1 - 0.03433X_2\]

Berdasarkan persamaan regresi yang telah diperoleh, variabel tingkat kehadiran (\(X_1\)) menunjukkan pengaruh positif terhadap nilai UAS (\(Y\)). Hal ini berarti bahwa setiap kenaikan 1% tingkat kehadiran akan meningkatkan nilai UAS sebesar 0.73723, dengan asumsi variabel IQ (\(X_2\)) konstan.

Sementara itu, variabel IQ (\(X_2\)) memiliki pengaruh negatif yang sangat kecil dan tidak signifikan terhadap nilai UAS (\(Y\)). Artinya, setiap kenaikan 1 satuan IQ akan menurunkan nilai UAS sebesar 0.03433, dengan asumsi tingkat kehadiran (\(X_1\)) konstan. Namun, karena pengaruhnya sangat kecil dan tidak signifikan, maka variabel IQ tidak memberikan kontribusi yang berarti terhadap perubahan nilai UAS dalam model ini.

Selain itu, nilai konstanta (intercept) sebesar 23.05445 menunjukkan bahwa ketika tingkat kehadiran (\(X_1\)) dan IQ (\(X_2\)) bernilai nol, maka nilai UAS diperkirakan sebesar 23.05445. Meskipun demikian, interpretasi ini bersifat matematis dan tidak selalu memiliki makna praktis dalam konteks nyata. Dengan demikian, dapat disimpulkan bahwa tingkat kehadiran merupakan faktor yang lebih dominan dalam memengaruhi nilai UAS dibandingkan dengan IQ.

Uji F (Uji Simultan)

Uji simultan atau overall F test digunakan untuk mengetahui apakah seluruh variabel bebas secara bersama-sama berpengaruh signifikan terhadap variabel terikat.

Adapun hipotesis yang digunakan ialah sebagai berikut:

\(H_0 : \beta_1 = \beta_2 = 0\)
(Tingkat kehadiran dan IQ secara bersama-sama tidak berpengaruh terhadap nilai UAS)

\(H_1 : \text{minimal terdapat satu } \beta_i \neq 0\)
(Tingkat kehadiran dan IQ secara bersama-sama berpengaruh terhadap nilai UAS)

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Menampilkan ringkasan model
summary(model)

## 
## Call:
## lm(formula = Nilai_UAS ~ Tingkat_Kehadiran + IQ, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       23.05445   25.57161   0.902 0.397247    
## Tingkat_Kehadiran  0.73723    0.10918   6.752 0.000264 ***
## IQ                -0.03433    0.22051  -0.156 0.880686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Berdasarkan hasil dari ringkasan model regresi tersebut, diperoleh nilai F-statistic sebesar 23,82 dengan p-value sebesar 0,0007523. Dengan menggunakan tingkat signifikansi \(\alpha = 0.05\), diketahui bahwa \(p-value < 0,05\), sehingga tolak \(H_0\). Hal ini menunjukkan bahwa secara simultan variabel tingkat kehadiran (\(X_1\)) dan IQ (\(X_2\)) memiliki pengaruh yang signifikan terhadap nilai UAS (\(Y\)). Dengan demikian, model regresi linier berganda yang digunakan dapat dinyatakan layak untuk menjelaskan hubungan antara variabel independen dan variabel dependen.

Uji t (Uji Parsial)

Uji parsial digunakan untuk mengukur pengaruh masing-masing variabel bebas terhadap variabel terikat secara individu. Dalam regresi berganda, tiap variabel independen memiliki pengaruh yang berbeda, sehingga pengujian secara individu diperlukan untuk menilai kontribusinya terhadap model.

Adapun hipotesis yang digunakan ialah sebagai berikut:

Variabel Tingkat Kehadiran (\(X_1\)):

\(\begin{aligned} H_0 &: \beta_1 = 0 \quad (\text{Tingkat kehadiran tidak berpengaruh terhadap nilai UAS}) \\ H_1 &: \beta_1 \neq 0 \quad (\text{Tingkat kehadiran berpengaruh terhadap nilai UAS}) \end{aligned}\)

Variabel IQ (\(X_2\)):

\(\begin{aligned} H_0 &: \beta_1 = 0 \quad (\text{IQ kehadiran tidak berpengaruh terhadap nilai UAS}) \\ H_1 &: \beta_1 \neq 0 \quad (\text{IQ kehadiran berpengaruh terhadap nilai UAS}) \end{aligned}\)

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Menampilkan ringkasan model
summary(model)

## 
## Call:
## lm(formula = Nilai_UAS ~ Tingkat_Kehadiran + IQ, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       23.05445   25.57161   0.902 0.397247    
## Tingkat_Kehadiran  0.73723    0.10918   6.752 0.000264 ***
## IQ                -0.03433    0.22051  -0.156 0.880686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Berdasarkan output tersebut, dapat disimpulkan bahwa variabel tingkat kehadiran (\(X_1\)) memiliki nilai p-value sebesar 0,000264 (< 0,05), sehingga tolak \(H_0\). Hal ini berarti bahwa tingkat kehadiran berpengaruh signifikan terhadap nilai UAS. Sementara itu, variabel IQ (\(X_2\)) memiliki p-value sebesar 0,880686 (> 0,05), sehingga gagal tolak \(H_0\). Hal ini menunjukkan bahwa IQ tidak memberikan pengaruh yang signifikan terhadap nilai UAS.

Koefisien Determinasi

Koefisien Determinasi (KD) atau R-squared (\(R^2\)) digunakan untuk mengetahui sejauh mana variabel bebas dalam model regresi mampu menjelaskan variabel terikat. Jika nilai \(R^2\) mendekati 0, berarti kemampuan variabel bebas dalam menjelaskan variabel terikat sangat terbatas. Sebaliknya, jika nilai \(R^2\) mendekati 1, berarti model memiliki kemampuan tinggi dalam menjelaskan variasi pada variabel terikat.

# Menampilkan ringkasan model
summary(model)

## 
## Call:
## lm(formula = Nilai_UAS ~ Tingkat_Kehadiran + IQ, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       23.05445   25.57161   0.902 0.397247    
## Tingkat_Kehadiran  0.73723    0.10918   6.752 0.000264 ***
## IQ                -0.03433    0.22051  -0.156 0.880686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Berdasarkan hasil output regresi, diperoleh nilai koefisien determinasi (\(R^2\)) sebesar 0,8719 dan Adjusted \(R^2\) sebesar 0,8353. Nilai \(R^2\) sebesar 0,8719 menjelaskan bahwa 87,19% variasi nilai UAS (\(Y\)) dapat dijelaskan oleh variabel tingkat kehadiran (\(X_1\)) dan IQ (\(X_2\)) dalam model regresi yang digunakan. Sementara itu, sebesar 12,81% sisanya dipengaruhi oleh faktor lain di luar model yang tidak termasuk dalam penelitian ini.

Adapun nilai Adjusted \(R^2\) sebesar 0,8353 menunjukkan bahwa sekitar 83,53% variasi nilai UAS masih mampu dijelaskan oleh model. Nilai ini memberikan gambaran yang lebih akurat mengenai kemampuan model dalam menjelaskan variabel dependen.

Uji Asumsi

Agar hasil dari analisis regresi bisa dianggap valid, model yang dibuat perlu memenuhi serangkaian uji asumsi klasik, seperti uji normalitas, autokorelasi, heteroskedastisitas, dan multikolinearitas.

Uji Normalitas

Uji ini bertujuan untuk mengetahui apakah residual data berdistribusi normal, yang mana hal ini merupakan syarat penting untuk memastikan validitas dari uji t dan uji F pada koefisien regresi. Pengujian normalitas dapat dilakukan melalui metode grafis, seperti diagram batang atau Q-Q plot, atau melalui uji statistik formal, seperti Shapiro-Wilk.

Adapun hipotesis yang digunakan ialah sebagai berikut:

\(H_0:\) Residual berdistribusi normal

\(H_1:\) Residual tidak beristribusi normal

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Ambil residual dari model
galat <- residuals(model)

# 1. Q-Q Plot
qqnorm(galat, main = "Q-Q Plot Residual")
qqline(galat, col = "red")

# 2. Uji Shapiro-Wilk
shapiro.test(galat)

## 
##  Shapiro-Wilk normality test
## 
## data:  galat
## W = 0.95125, p-value = 0.6833

Berdasarkan hasil uji normalitas dengan metode grafis (Q-Q plot), terlihat bahwa titik-titik residual cenderung mengikuti dan berada di sekitar garis diagonal. Hal ini menunjukkan bahwa residual berdistribusi mendekati normal. Selain itu, hasil uji Shapiro-Wilk menunjukkan nilai p-value sebesar 0,6833. Dengan menggunakan tingkat signifikansi \(α = 0,05\), diketahui bahwa \(p-value > 0,05\), sehingga gagal tolak \(H_0\). Dengan demikian, dapat disimpulkan bahwa residual berdistribusi normal, sehingga asumsi normalitas dalam model regresi linier berganda telah terpenuhi.

Uji Heteroskedastisitas

Heteroskedastisitas terjadi ketika varians residual tidak konstan. Pengujian ini penting karena adanya heteroskedastisitas dapat menyebabkan estimasi koefisien menjadi tidak efisien. Salah satu metode yang umum digunakan untuk mendeteksinya adalah uji Breusch-Pagan. Uji heteroskedastisitas sendiri merupakan prosedur statistik yang digunakan untuk mengetahui apakah varians residual dalam model regresi bersifat konstan atau tidak.

Adapun hipotesis yang digunakan ialah sebagai berikut:

\(H_0:\) Varians dari residual menyebar homogen

\(H_1:\) Varians dari residual menyebar tidak homogen

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Uji Breusch–Pagan
library(lmtest)
bptest(model)

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 5.905, df = 2, p-value = 0.05221

Berdasarkan hasil uji Breusch-Pagan, diperoleh nilai BP sebesar 5,905 dengan p-value sebesar 0,05221. Dengan menggunakan tingkat signifikansi \(α = 0,05\), diketahui bahwa \(p-value > 0,05\), sehingga gagal tolak \(H_0\). Hal ini menunjukkan bahwa tidak terdapat indikasi heteroskedastisitas dalam model regresi, sehingga varians residual dapat dianggap konstan (homoskedastisitas). Dengan demikian, salah satu asumsi klasik dalam regresi telah terpenuhi.

Uji Autokorelasi

Uji autokorelasi digunakan untuk mengetahui apakah terdapat hubungan (korelasi) antara residual pada satu pengamatan dengan residual pada pengamatan lainnya. Autokorelasi biasanya muncul pada data yang memiliki urutan, seperti data time series (berdasarkan waktu) atau data yang memiliki keterkaitan antar observasi.

Adapun hipotesis yang digunakan ialah sebagai berikut:

\(H_0:\) Tidak terdapat autokorelasi antar residual

\(H_1:\) Terdapat autokorelasi antar residual

Dengan menggunakan taraf signifikansi sebesar \(\alpha = 0.05\), maka kriteria pengujian adalah tolak \(H_0\) jika \(p-value < \alpha\).

# Uji Durbin Watson
dwtest(model, alternative = "two.sided")

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.594, p-value = 0.3974
## alternative hypothesis: true autocorrelation is not 0

Berdasarkan hasil uji Durbin-Watson, diperoleh nilai DW sebesar 2,594 dengan p-value sebesar 0,3974. Dengan menggunakan tingkat signifikansi \(α = 0,05\), diketahui bahwa \(p-value > 0,05\), sehingga gagal tolak \(H_0\). Hal ini menunjukkan bahwa tidak terdapat gejala autokorelasi pada residual model regresi. Dengan demikian, residual bersifat independen dan asumsi autokorelasi telah terpenuhi.

Uji Multikolinearitas

Multikolinearitas terjadi ketika terdapat hubungan linear yang kuat antara variabel independen, yang dapat mengakibatkan ketidakstabilan pada koefisien. Pengujian ini dapat diukur dengan menggunakan Faktor Inflasi Variansi (VIF).

# VIF
library(car)
vif(model)

## Tingkat_Kehadiran                IQ 
##          1.055571          1.055571

Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), diperoleh nilai VIF untuk variabel tingkat kehadiran (\(X_1\)) dan IQ (\(X_2\)) masing-masing sebesar 1,055571. Karena nilai VIF tersebut lebih kecil dari 10, dapat disimpulkan bahwa model regresi tidak mengalami gejala multikolinearitas.