1 Pendahuluan

1.1 Latar Belakang

Pendidikan merupakan salah satu faktor penting dalam meningkatkan kualitas sumber daya manusia. Tingkat keberhasilan pendidikan dapat dilihat melalui performa akademik siswa yang dipengaruhi oleh berbagai faktor, baik faktor internal maupun eksternal. Dalam dunia pendidikan, analisis data dapat digunakan untuk mengetahui faktor-faktor yang memengaruhi performa akademik siswa sehingga dapat dijadikan dasar dalam pengambilan keputusan.

Salah satu metode statistika yang sering digunakan untuk menganalisis hubungan antara beberapa variabel prediktor dengan satu variabel respon adalah analisis regresi linear berganda. Regresi linear berganda digunakan untuk mengetahui pengaruh beberapa variabel independen secara simultan terhadap variabel dependen. Metode ini banyak diterapkan dalam berbagai bidang, termasuk pendidikan, ekonomi, kesehatan, dan sosial.

Pada penelitian ini digunakan dataset Student Performance yang diperoleh dari Kaggle. Dataset tersebut memuat beberapa variabel yang berkaitan dengan performa siswa, seperti Hours Studied, Previous Scores, Sleep Hours, Sample Question Papers Practiced, dan Performance Index. Variabel-variabel tersebut diduga memiliki hubungan terhadap performa akademik siswa.

Dataset awal terdiri dari lima variabel prediktor dan satu variabel respon. Namun, salah satu variabel prediktor yaitu Extracurricular Activities merupakan variabel kategorik sehingga tidak digunakan dalam analisis regresi linear berganda pada penelitian ini. Oleh karena itu, analisis dilakukan menggunakan empat variabel prediktor numerik yaitu Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced dengan variabel respon berupa Performance Index.

Analisis dilakukan melalui beberapa tahapan, yaitu eksplorasi data menggunakan statistik deskriptif dan scatter plot, pembentukan model regresi linear berganda, pengujian signifikansi model, serta pengujian asumsi klasik regresi. Hasil analisis diharapkan dapat memberikan gambaran mengenai faktor-faktor yang memengaruhi performa siswa.

1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, rumusan masalah pada penelitian ini adalah sebagai berikut:

  1. Bagaimana karakteristik data Student Performance berdasarkan statistik deskriptif?
  2. Bagaimana hubungan antara variabel prediktor dengan variabel respon berdasarkan scatter plot?
  3. Bagaimana model regresi linear berganda yang terbentuk pada dataset Student Performance?
  4. Apakah variabel prediktor berpengaruh signifikan terhadap Performance Index?
  5. Apakah model regresi linear berganda memenuhi asumsi klasik regresi?

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah sebagai berikut:

  1. Mengetahui karakteristik data Student Performance melalui statistik deskriptif.
  2. Mengetahui hubungan antara variabel prediktor dengan variabel respon menggunakan scatter plot.
  3. Membentuk model regresi linear berganda pada dataset Student Performance.
  4. Menguji signifikansi variabel prediktor terhadap Performance Index.
  5. Menguji asumsi klasik pada model regresi linear berganda.

2 Tinjauan Pustaka

2.1 Analisis Regresi Linear Berganda

Regresi linear berganda merupakan metode statistika yang digunakan untuk mengetahui hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Analisis ini bertujuan untuk mengetahui pengaruh variabel prediktor terhadap variabel respon serta membentuk model matematis yang dapat digunakan untuk prediksi.

Model regresi linear berganda secara umum dapat dituliskan sebagai berikut:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \varepsilon \]

Keterangan:

  • \(Y\) : variabel respon
  • \(X_1, X_2, ..., X_p\) : variabel prediktor
  • \(\beta_0\) : intercept
  • \(\beta_1, \beta_2, ..., \beta_p\) : koefisien regresi
  • \(\varepsilon\) : error

Dalam regresi linear berganda, nilai koefisien regresi menunjukkan besar perubahan variabel respon akibat perubahan variabel prediktor dengan asumsi variabel lainnya konstan.

2.2 Statistik Deskriptif

Statistik deskriptif merupakan metode statistika yang digunakan untuk mendeskripsikan atau menggambarkan karakteristik data. Statistik deskriptif meliputi ukuran pemusatan data seperti mean, median, dan modus serta ukuran penyebaran data seperti standar deviasi, minimum, maksimum, dan kuartil.

Statistik deskriptif digunakan sebagai tahap awal analisis data untuk memberikan gambaran umum mengenai data yang digunakan sebelum dilakukan analisis lebih lanjut.

2.3 Scatter Plot

Scatter plot adalah grafik yang digunakan untuk melihat hubungan antara dua variabel numerik. Grafik ini menampilkan titik-titik data berdasarkan nilai variabel independen pada sumbu X dan variabel dependen pada sumbu Y.

Scatter plot digunakan untuk melihat pola hubungan antar variabel, apakah memiliki hubungan positif, negatif, atau tidak memiliki hubungan tertentu. Selain itu, scatter plot juga dapat digunakan untuk mendeteksi adanya outlier pada data.

2.4 Uji Signifikansi Regresi

Uji signifikansi regresi dilakukan untuk mengetahui apakah variabel prediktor berpengaruh terhadap variabel respon. Pengujian dilakukan menggunakan uji F dan uji t.

Uji F

Uji F digunakan untuk mengetahui pengaruh variabel prediktor secara simultan terhadap variabel respon.

Hipotesis:

\(H_0\): Seluruh variabel prediktor tidak berpengaruh signifikan terhadap variabel respon.

\(H_1\): Minimal terdapat satu variabel prediktor yang berpengaruh signifikan terhadap variabel respon.

Kriteria pengujian:

Tolak \(H_0\) apabila nilai p-value < 0,05.

Uji t

Uji t digunakan untuk mengetahui pengaruh masing-masing variabel prediktor secara parsial terhadap variabel respon.

Hipotesis:

\[ H_0 : \beta_i = 0 \]

\[ H_1 : \beta_i \neq 0 \]

Kriteria pengujian:

Tolak \(H_0\) apabila nilai p-value < 0,05.

2.5 Uji Asumsi Klasik

Uji asumsi klasik dilakukan untuk memastikan bahwa model regresi memenuhi asumsi BLUE (Best Linear Unbiased Estimator). Pengujian asumsi klasik meliputi uji normalitas, multikolinieritas, homoskedastisitas, autokorelasi, dan linearitas.

Uji Normalitas

Uji normalitas dilakukan untuk mengetahui apakah residual berdistribusi normal. Pengujian dapat dilakukan menggunakan Q-Q Plot maupun uji statistik seperti Test Shapiro Wilk.

Hipotesis:

\(H_0\): Residual berdistribusi normal.

\(H_1\): Residual tidak berdistribusi normal.

Uji Multikolinieritas

Uji multikolinieritas dilakukan untuk mengetahui adanya hubungan kuat antar variabel prediktor. Salah satu metode yang digunakan adalah Variance Inflation Factor (VIF). Jika nilai VIF < 10 maka tidak terjadi multikolinearitas.

Hipotesis:

\(H_0\): Tidak terjadi multikolinieritas.

\(H_1\): Terjadi multikolinieritas.

Uji Homoskedastisitas

Uji homoskedastisitas dilakukan untuk mengetahui apakah varians residual bersifat konstan. Jika residual menyebar secara acak dan tidak membentuk pola tertentu maka asumsi homoskedastisitas terpenuhi.

Hipotesis:

\(H_0\): Tidak terjadi heterokedastisitas (Varians residual homogen).

\(H_1\): Terjadi heterokedastisitas.

Uji Autokorelasi

Uji autokorelasi dilakukan untuk mengetahui hubungan residual antar pengamatan. Salah satu metode yang digunakan adalah Durbin-Watson Test.

Hipotesis:

\(H_0\): Tidak terdapat autokorelasi pada residual.

\(H_1\): Terdapat autokorelasi pada residual.

Uji Linearitas

Uji linearitas dilakukan untuk mengetahui apakah hubungan antara variabel prediktor dan respon bersifat linear. Salah satu metode yang digunakan adalah Ramsey RESET Test.

Hipotesis:

\(H_0\): Model regresi bersifat linear.

\(H_1\): Model regresi tidak linear.

3 Source Code

3.1 Impor Library dan Data

Pada tahap awal dilakukan impor library yang digunakan dalam analisis regresi linear berganda. Library yang digunakan meliputi readr untuk membaca data, psych untuk statistik deskriptif, car untuk uji multikolinieritas, dan lmtest untuk pengujian asumsi klasik.

library(readr)
library(psych)
library(car)
library(lmtest)

Selanjutnya dilakukan impor dataset Student Performance. Dataset terdiri dari 10.000 observasi dengan beberapa variabel yang berkaitan dengan performa siswa.

data <- read_csv("C:/Users/LENOVO/Downloads/Student_Performance.csv")

View(data)

Variabel Extracurricular Activities tidak digunakan karena merupakan variabel kategorik. Oleh karena itu, dilakukan seleksi data sehingga hanya digunakan variabel numerik.

Student_Perfomance <- subset(
  data,
  select = -`Extracurricular Activities`
)

View(Student_Perfomance)

Dataset yang digunakan terdiri dari empat variabel prediktor yaitu Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced, serta satu variabel respon yaitu Performance Index.

3.2 Statistik Deskriptif

Statistik deskriptif digunakan untuk mengetahui gambaran umum karakteristik data penelitian sebelum dilakukan analisis regresi linear berganda.

summary(Student_Perfomance)
 Hours Studied   Previous Scores  Sleep Hours   
 Min.   :1.000   Min.   :40.00   Min.   :4.000  
 1st Qu.:3.000   1st Qu.:54.00   1st Qu.:5.000  
 Median :5.000   Median :69.00   Median :7.000  
 Mean   :4.993   Mean   :69.45   Mean   :6.531  
 3rd Qu.:7.000   3rd Qu.:85.00   3rd Qu.:8.000  
 Max.   :9.000   Max.   :99.00   Max.   :9.000  
 Sample Question Papers Practiced Performance Index
 Min.   :0.000                    Min.   : 10.00   
 1st Qu.:2.000                    1st Qu.: 40.00   
 Median :5.000                    Median : 55.00   
 Mean   :4.583                    Mean   : 55.22   
 3rd Qu.:7.000                    3rd Qu.: 71.00   
 Max.   :9.000                    Max.   :100.00   
describe(Student_Perfomance)
                                 vars     n  mean    sd median trimmed   mad
Hours Studied                       1 10000  4.99  2.59      5    4.99  2.97
Previous Scores                     2 10000 69.45 17.34     69   69.45 22.24
Sleep Hours                         3 10000  6.53  1.70      7    6.54  1.48
Sample Question Papers Practiced    4 10000  4.58  2.87      5    4.60  2.97
Performance Index                   5 10000 55.22 19.21     55   55.24 22.24
                                 min max range  skew kurtosis   se
Hours Studied                      1   9     8  0.00    -1.23 0.03
Previous Scores                   40  99    59  0.00    -1.21 0.17
Sleep Hours                        4   9     5 -0.04    -1.26 0.02
Sample Question Papers Practiced   0   9     9 -0.04    -1.21 0.03
Performance Index                 10 100    90  0.00    -0.86 0.19

3.3 Scatter Plot

Scatter Plot digunakan untuk melihat pola hubungan awal antara masing-masing variabel prediktor dengan variabel respon.

Scatter Plot Hours Studied dan Performance Index

plot(Student_Perfomance$`Hours Studied`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Hours Studied vs Performance Index",
     xlab = "Hours Studied",
     ylab = "Performance Index",
     pch = 19)

Scatter Plot Previous Scores dan Performance Index

plot(Student_Perfomance$`Previous Scores`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Previous Scores vs Performance Index",
     xlab = "Previous Scores",
     ylab = "Performance Index",
     pch = 19)

Scatter Plot Sleep Hours dan Performance Index

plot(Student_Perfomance$`Sleep Hours`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Sleep Hours vs Performance Index",
     xlab = "Sleep Hours",
     ylab = "Performance Index",
     pch = 19)

Scatter Plot Sample Question Papers Practiced dan Performance Index

plot(Student_Perfomance$`Sample Question Papers Practiced`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Question Papers Practiced vs Performance Index",
     xlab = "Question Papers Practiced",
     ylab = "Performance Index",
     pch = 19)

3.4 Regresi Linear Berganda

Analisis regresi linear berganda dilakukan untuk mengetahui pengaruh variabel prediktor terhadap Performance Index.

model <- lm(
  `Performance Index` ~
    `Hours Studied` +
    `Previous Scores` +
    `Sleep Hours` +
    `Sample Question Papers Practiced`,
  data = Student_Perfomance
)

summary(model)

Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` + 
    `Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.3299 -1.3831 -0.0062  1.3701  8.4864 

Coefficients:
                                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)                        -33.763726   0.126841 -266.19   <2e-16 ***
`Hours Studied`                      2.853429   0.007962  358.40   <2e-16 ***
`Previous Scores`                    1.018584   0.001189  857.02   <2e-16 ***
`Sleep Hours`                        0.476333   0.012153   39.19   <2e-16 ***
`Sample Question Papers Practiced`   0.195198   0.007189   27.15   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared:  0.9885,    Adjusted R-squared:  0.9885 
F-statistic: 2.147e+05 on 4 and 9995 DF,  p-value: < 2.2e-16
coef(model)
                       (Intercept)                    `Hours Studied` 
                       -33.7637261                          2.8534292 
                 `Previous Scores`                      `Sleep Hours` 
                         1.0185835                          0.4763330 
`Sample Question Papers Practiced` 
                         0.1951983 

3.5 Uji Asumsi Klasik

Pengujian asumsi klasik dilakukan untuk memastikan model regresi memenuhi asumsi BLUE (Best Linear Unbiased Estimator).

Periksa Sisaan

par(mfrow=c(2,2))
plot(model)

Uji Normalitas Residual

Uji normalitas dilakukan menggunakan QQ Plot.

qqnorm(residuals(model))
qqline(residuals(model), col = "red")

Uji Multikolinieritas

Uji multikolinieritas dilakukan menggunakan Variance Inflation Factor (VIF).

vif(model)
                   `Hours Studied`                  `Previous Scores` 
                          1.000464                           1.000254 
                     `Sleep Hours` `Sample Question Papers Practiced` 
                          1.000052                           1.000386 

Uji Homoskedastisitas

Uji homoskedastisitas dilakukan menggunakan Breusch-Pagan Test.

bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 1.5045, df = 4, p-value = 0.8258

Uji Autokorelasi

Uji autokorelasi dilakukan menggunakan Durbin-Watson Test.

dwtest(model)

    Durbin-Watson test

data:  model
DW = 2.0039, p-value = 0.5764
alternative hypothesis: true autocorrelation is greater than 0

Uji Linearitas

Uji linearitas dilakukan menggunakan Ramsey RESET Test.

resettest(model)

    RESET test

data:  model
RESET = 4.9462, df1 = 2, df2 = 9993, p-value = 0.007128

4 Hasil dan Pembahasan

4.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data penelitian. Analisis dilakukan terhadap seluruh variabel numerik yang digunakan dalam penelitian.

summary(Student_Perfomance)
 Hours Studied   Previous Scores  Sleep Hours   
 Min.   :1.000   Min.   :40.00   Min.   :4.000  
 1st Qu.:3.000   1st Qu.:54.00   1st Qu.:5.000  
 Median :5.000   Median :69.00   Median :7.000  
 Mean   :4.993   Mean   :69.45   Mean   :6.531  
 3rd Qu.:7.000   3rd Qu.:85.00   3rd Qu.:8.000  
 Max.   :9.000   Max.   :99.00   Max.   :9.000  
 Sample Question Papers Practiced Performance Index
 Min.   :0.000                    Min.   : 10.00   
 1st Qu.:2.000                    1st Qu.: 40.00   
 Median :5.000                    Median : 55.00   
 Mean   :4.583                    Mean   : 55.22   
 3rd Qu.:7.000                    3rd Qu.: 71.00   
 Max.   :9.000                    Max.   :100.00   
describe(Student_Perfomance)
                                 vars     n  mean    sd median trimmed   mad
Hours Studied                       1 10000  4.99  2.59      5    4.99  2.97
Previous Scores                     2 10000 69.45 17.34     69   69.45 22.24
Sleep Hours                         3 10000  6.53  1.70      7    6.54  1.48
Sample Question Papers Practiced    4 10000  4.58  2.87      5    4.60  2.97
Performance Index                   5 10000 55.22 19.21     55   55.24 22.24
                                 min max range  skew kurtosis   se
Hours Studied                      1   9     8  0.00    -1.23 0.03
Previous Scores                   40  99    59  0.00    -1.21 0.17
Sleep Hours                        4   9     5 -0.04    -1.26 0.02
Sample Question Papers Practiced   0   9     9 -0.04    -1.21 0.03
Performance Index                 10 100    90  0.00    -0.86 0.19

Berdasarkan hasil statistik deskriptif, diperoleh bahwa variabel Hours Studied memiliki rata-rata sebesar 4,99 jam dengan nilai minimum 1 jam dan maksimum 9 jam. Hal ini menunjukkan bahwa rata-rata siswa belajar sekitar 5 jam per hari.

Variabel Previous Scores memiliki rata-rata sebesar 69,45 dengan rentang data antara 40 hingga 99. Nilai tersebut menunjukkan bahwa sebagian besar siswa memiliki nilai akademik sebelumnya yang cukup baik.

Variabel Sleep Hours memiliki rata-rata sebesar 6,53 jam dengan nilai minimum 4 jam dan maksimum 9 jam. Sementara itu, variabel Sample Question Papers Practiced memiliki rata-rata sebesar 4,58 dengan rentang data antara 0 hingga 9 latihan soal.

Pada variabel respon yaitu Performance Index diperoleh rata-rata sebesar 55,22 dengan nilai minimum 10 dan maksimum 100. Hal ini menunjukkan bahwa performa siswa memiliki variasi yang cukup besar.

4.2 Scatter Plot

Scatter plot digunakan untuk melihat hubungan awal antara variabel prediktor dengan variabel respon.

Scatter Plot Hours Studied dan Performance Index

plot(Student_Perfomance$`Hours Studied`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Hours Studied vs Performance Index",
     xlab = "Hours Studied",
     ylab = "Performance Index",
     pch = 19)

Berdasarkan scatter plot, terlihat adanya hubungan positif antara Hours Studied dan Performance Index. Semakin banyak jam belajar siswa, maka nilai Performance Index cenderung meningkat. Hal ini menunjukkan bahwa jam belajar memiliki pengaruh positif terhadap performa akademik siswa.

Scatter Plot Previous Scores dan Performance Index

plot(Student_Perfomance$`Previous Scores`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Previous Scores vs Performance Index",
     xlab = "Previous Scores",
     ylab = "Performance Index",
     pch = 19)

Scatter plot menunjukkan hubungan positif yang sangat kuat antara Previous Scores dan Performance Index. Semakin tinggi nilai sebelumnya, maka semakin tinggi pula Performance Index siswa. Pola titik yang membentuk garis naik menunjukkan adanya hubungan linear yang kuat antar variabel.

Scatter Plot Sleep Hours dan Performance Index

plot(Student_Perfomance$`Sleep Hours`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Sleep Hours vs Performance Index",
     xlab = "Sleep Hours",
     ylab = "Performance Index",
     pch = 19)

Scatter plot menunjukkan bahwa Sleep Hours memiliki hubungan positif terhadap Performance Index, meskipun hubungan yang terlihat tidak sekuat variabel sebelumnya. Siswa dengan jam tidur yang lebih baik cenderung memiliki performa akademik yang sedikit lebih tinggi.

Scatter Plot Sample Question Papers Practiced dan Performance Index

plot(Student_Perfomance$`Sample Question Papers Practiced`,
     Student_Perfomance$`Performance Index`,
     main = "Scatter Plot Question Papers Practiced vs Performance Index",
     xlab = "Question Papers Practiced",
     ylab = "Performance Index",
     pch = 19)

Scatter plot menunjukkan adanya hubungan positif antara jumlah latihan soal yang dikerjakan dengan Performance Index. Semakin banyak latihan soal yang dikerjakan siswa, maka performa akademik cenderung meningkat.

4.3 Regresi Linear Berganda

Analisis regresi linear berganda dilakukan untuk mengetahui pengaruh variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced terhadap Performance Index.

model <- lm(
  `Performance Index` ~
    `Hours Studied` +
    `Previous Scores` +
    `Sleep Hours` +
    `Sample Question Papers Practiced`,
  data = Student_Perfomance
)

summary(model)

Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` + 
    `Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.3299 -1.3831 -0.0062  1.3701  8.4864 

Coefficients:
                                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)                        -33.763726   0.126841 -266.19   <2e-16 ***
`Hours Studied`                      2.853429   0.007962  358.40   <2e-16 ***
`Previous Scores`                    1.018584   0.001189  857.02   <2e-16 ***
`Sleep Hours`                        0.476333   0.012153   39.19   <2e-16 ***
`Sample Question Papers Practiced`   0.195198   0.007189   27.15   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared:  0.9885,    Adjusted R-squared:  0.9885 
F-statistic: 2.147e+05 on 4 and 9995 DF,  p-value: < 2.2e-16
coef(model)
                       (Intercept)                    `Hours Studied` 
                       -33.7637261                          2.8534292 
                 `Previous Scores`                      `Sleep Hours` 
                         1.0185835                          0.4763330 
`Sample Question Papers Practiced` 
                         0.1951983 

Berdasarkan hasil regresi linear berganda, diperoleh persamaan model sebagai berikut:

\[ Y = -33.7637 + 2.8534X_1 + 1.0186X_2 + 0.4763X_3 + 0.1952X_4 \]

Keterangan:

  • \(X_1\) : Hours Studied
  • \(X_2\) : Previous Scores
  • \(X_3\) : Sleep Hours
  • \(X_4\) : Sample Question Papers Practiced

Interpretasi model:

  1. Nilai konstanta sebesar -33.764 menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Performance Index diperkirakan sebesar -33.764.

  2. Setiap kenaikan 1 jam belajar akan meningkatkan Performance Index sebesar 2,8534 poin dengan asumsi variabel lain konstan.

  3. Setiap kenaikan 1 poin nilai sebelumnya akan meningkatkan Performance Index sebesar 1.019 poin dengan asumsi variabel lain tetap.

  4. Setiap penambahan 1 jam tidur akan meningkatkan Performance Index sebesar 0.476 poin dengan asumsi variabel lain konstan.

5.Setiap penambahan latihan soal akan meningkatkan Performance Index sebesar 0.195 poin dengan asumsi variabel lain tetap.

Nilai Adjusted R-Squared sebesar 0,9885 menunjukkan bahwa sebesar 98,85% variasi Performance Index dapat dijelaskan oleh variabel prediktor dalam model, sedangkan sisanya dijelaskan oleh faktor lain di luar model.

4.4 Uji Signifikansi Regresi

Uji signifikansi regresi dilakukan untuk mengetahui pengaruh variabel prediktor terhadap variabel respon baik secara simultan maupun parsial.

Uji F

Hipotesis:

\(H_0\): Seluruh variabel prediktor tidak berpengaruh signifikan terhadap Performance Index.

\(H_1\): Minimal terdapat satu variabel prediktor yang berpengaruh signifikan terhadap Performance Index.

summary(model)

Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` + 
    `Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.3299 -1.3831 -0.0062  1.3701  8.4864 

Coefficients:
                                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)                        -33.763726   0.126841 -266.19   <2e-16 ***
`Hours Studied`                      2.853429   0.007962  358.40   <2e-16 ***
`Previous Scores`                    1.018584   0.001189  857.02   <2e-16 ***
`Sleep Hours`                        0.476333   0.012153   39.19   <2e-16 ***
`Sample Question Papers Practiced`   0.195198   0.007189   27.15   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared:  0.9885,    Adjusted R-squared:  0.9885 
F-statistic: 2.147e+05 on 4 and 9995 DF,  p-value: < 2.2e-16

Berdasarkan hasil uji F diperoleh nilai p-value < 0,05 sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced secara simultan berpengaruh signifikan terhadap Performance Index.

Uji t

Hipotesis:

\[ H_0 : \beta_i = 0 \]

\[ H_1 : \beta_i \neq 0 \]

summary(model)

Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` + 
    `Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.3299 -1.3831 -0.0062  1.3701  8.4864 

Coefficients:
                                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)                        -33.763726   0.126841 -266.19   <2e-16 ***
`Hours Studied`                      2.853429   0.007962  358.40   <2e-16 ***
`Previous Scores`                    1.018584   0.001189  857.02   <2e-16 ***
`Sleep Hours`                        0.476333   0.012153   39.19   <2e-16 ***
`Sample Question Papers Practiced`   0.195198   0.007189   27.15   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared:  0.9885,    Adjusted R-squared:  0.9885 
F-statistic: 2.147e+05 on 4 and 9995 DF,  p-value: < 2.2e-16

Berdasarkan hasil uji t, seluruh variabel prediktor memiliki nilai p-value < 0,05 sehingga seluruh variabel prediktor berpengaruh signifikan terhadap Performance Index.

4.5 Uji Asumsi Klasik

Uji asumsi klasik dilakukan untuk memastikan bahwa model regresi linear berganda memenuhi asumsi BLUE (Best Linear Unbiased Estimator).

Periksa Sisaan

par(mfrow=c(2,2))
plot(model)

Berdasarkan plot diagnostik residual, secara umum residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu. Hal ini menunjukkan bahwa model regresi secara umum telah cukup baik dalam menjelaskan hubungan antara variabel prediktor dan variabel respon.

Uji Normalitas Residual

Hipotesis:

\(H_0\): Residual berdistribusi normal.

\(H_1\): Residual tidak berdistribusi normal.

qqnorm(residuals(model))
qqline(residuals(model), col = "red")

Berdasarkan QQ Plot, titik-titik residual cenderung mengikuti garis diagonal sehingga residual dapat dikatakan berdistribusi normal.

Uji Multikolinieritas

Hipotesis:

\(H_0\): Tidak terjadi multikolinieritas.

\(H_1\): Terjadi multikolinieritas.

vif(model)
                   `Hours Studied`                  `Previous Scores` 
                          1.000464                           1.000254 
                     `Sleep Hours` `Sample Question Papers Practiced` 
                          1.000052                           1.000386 

Hasil uji multikolinearitas menunjukkan seluruh nilai VIF berada di sekitar 1 dan kurang dari 10. Hal ini menunjukkan bahwa tidak terjadi multikolinearitas antar variabel prediktor.

Uji Homoskedastisitas

Hipotesis:

\(H_0\): Tidak terjadi heterokedastisitas (Varians residual homogen).

\(H_1\): Terjadi heterokedastisitas.

bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 1.5045, df = 4, p-value = 0.8258

Berdasarkan uji Breusch-Pagan diperoleh p-value sebesar 0.8258 > 0.05, sehingga \(H_0\) diterima. Hal ini menunjukkan bahwa tidak terjadi heteroskedastisitas atau varians residual bersifat homogen.

Uji Autokorelasi

Hipotesis:

\(H_0\): Tidak terdapat autokorelasi.

\(H_1\): Terdapat autokorelasi.

dwtest(model)

    Durbin-Watson test

data:  model
DW = 2.0039, p-value = 0.5764
alternative hypothesis: true autocorrelation is greater than 0

Hasil uji Durbin-Watson menunjukkan nilai DW sebesar 2.0039 dengan p-value sebesar 0.5764 > 0.05, sehingga dapat disimpulkan bahwa tidak terdapat autokorelasi pada residual model.

Uji Linearitas

Hipotesis:

\(H_0\): Model regresi bersifat linear.

\(H_1\): Model regresi tidak linear.

resettest(model)

    RESET test

data:  model
RESET = 4.9462, df1 = 2, df2 = 9993, p-value = 0.007128

Hasil RESET test menunjukkan p-value sebesar 0.007128 < 0.05, sehingga H0 ditolak. Hal ini menunjukkan bahwa terdapat indikasi ketidaklinearan pada model regresi atau kemungkinan terdapat bentuk model lain yang lebih sesuai.

5 Kesimpulan

Berdasarkan hasil analisis regresi linier berganda yag telah dilakukan, dapat disimpulkan bahwa variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced berpengaruh signifikan terhadap Performance Index siswa.

Model regresi yang terbentuk memiliki nilai Adjusted R-Squared sebesar 0,9885 yang menunjukkan bahwa sebesar 98,85% variasi Performance Index dapat dijelaskan oleh variabel prediktor dalam model.

Selain itu, hasil uji asumsi menunjukkan bahwa model telah memenuhi asumsi normalitas, non multikolinearitas, homoskedastisitas, dan non autokorelasi, meskipun pada uji linearitas masih terdapat indikasi bahwa model belum sepenuhnya linear. Secara umum, model regresi yang diperoleh sudah cukup baik untuk menjelaskan hubungan antara faktor-faktor belajar terhadap performa akademik siswa.

6 Daftar Pustaka

Aini, R., Yulianto, T., & Kuzairi. (2025). Metode Regresi Linier Berganda Berbasis Machine Learning untuk Memprediksi Peminjaman Buku di Kabupaten Pamekasan. MATHunesa Jurnal Ilmiah Matematika, 487-493.

Ghozali, I. (2018). Aplikasi Analisis Multivariate dengan Program IBM SPSS 25. Semarang: Badan Penerbit Universitas Diponegoro.

Santoso, S. (2018). Mahir Statistik Multivariat dengan SPSS. Jakarta: PT Elex Media Komputindo.

Student Performance Dataset. (2023). Kaggle. Diakses dari: https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression