Pendidikan merupakan salah satu faktor penting dalam meningkatkan kualitas sumber daya manusia. Tingkat keberhasilan pendidikan dapat dilihat melalui performa akademik siswa yang dipengaruhi oleh berbagai faktor, baik faktor internal maupun eksternal. Dalam dunia pendidikan, analisis data dapat digunakan untuk mengetahui faktor-faktor yang memengaruhi performa akademik siswa sehingga dapat dijadikan dasar dalam pengambilan keputusan.
Salah satu metode statistika yang sering digunakan untuk menganalisis hubungan antara beberapa variabel prediktor dengan satu variabel respon adalah analisis regresi linear berganda. Regresi linear berganda digunakan untuk mengetahui pengaruh beberapa variabel independen secara simultan terhadap variabel dependen. Metode ini banyak diterapkan dalam berbagai bidang, termasuk pendidikan, ekonomi, kesehatan, dan sosial.
Pada penelitian ini digunakan dataset Student Performance yang diperoleh dari Kaggle. Dataset tersebut memuat beberapa variabel yang berkaitan dengan performa siswa, seperti Hours Studied, Previous Scores, Sleep Hours, Sample Question Papers Practiced, dan Performance Index. Variabel-variabel tersebut diduga memiliki hubungan terhadap performa akademik siswa.
Dataset awal terdiri dari lima variabel prediktor dan satu variabel respon. Namun, salah satu variabel prediktor yaitu Extracurricular Activities merupakan variabel kategorik sehingga tidak digunakan dalam analisis regresi linear berganda pada penelitian ini. Oleh karena itu, analisis dilakukan menggunakan empat variabel prediktor numerik yaitu Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced dengan variabel respon berupa Performance Index.
Analisis dilakukan melalui beberapa tahapan, yaitu eksplorasi data menggunakan statistik deskriptif dan scatter plot, pembentukan model regresi linear berganda, pengujian signifikansi model, serta pengujian asumsi klasik regresi. Hasil analisis diharapkan dapat memberikan gambaran mengenai faktor-faktor yang memengaruhi performa siswa.
Berdasarkan latar belakang tersebut, rumusan masalah pada penelitian ini adalah sebagai berikut:
Tujuan dari penelitian ini adalah sebagai berikut:
Regresi linear berganda merupakan metode statistika yang digunakan untuk mengetahui hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Analisis ini bertujuan untuk mengetahui pengaruh variabel prediktor terhadap variabel respon serta membentuk model matematis yang dapat digunakan untuk prediksi.
Model regresi linear berganda secara umum dapat dituliskan sebagai berikut:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \varepsilon \]
Keterangan:
Dalam regresi linear berganda, nilai koefisien regresi menunjukkan besar perubahan variabel respon akibat perubahan variabel prediktor dengan asumsi variabel lainnya konstan.
Statistik deskriptif merupakan metode statistika yang digunakan untuk mendeskripsikan atau menggambarkan karakteristik data. Statistik deskriptif meliputi ukuran pemusatan data seperti mean, median, dan modus serta ukuran penyebaran data seperti standar deviasi, minimum, maksimum, dan kuartil.
Statistik deskriptif digunakan sebagai tahap awal analisis data untuk memberikan gambaran umum mengenai data yang digunakan sebelum dilakukan analisis lebih lanjut.
Scatter plot adalah grafik yang digunakan untuk melihat hubungan antara dua variabel numerik. Grafik ini menampilkan titik-titik data berdasarkan nilai variabel independen pada sumbu X dan variabel dependen pada sumbu Y.
Scatter plot digunakan untuk melihat pola hubungan antar variabel, apakah memiliki hubungan positif, negatif, atau tidak memiliki hubungan tertentu. Selain itu, scatter plot juga dapat digunakan untuk mendeteksi adanya outlier pada data.
Uji signifikansi regresi dilakukan untuk mengetahui apakah variabel prediktor berpengaruh terhadap variabel respon. Pengujian dilakukan menggunakan uji F dan uji t.
Uji F digunakan untuk mengetahui pengaruh variabel prediktor secara simultan terhadap variabel respon.
Hipotesis:
\(H_0\): Seluruh variabel prediktor tidak berpengaruh signifikan terhadap variabel respon.
\(H_1\): Minimal terdapat satu variabel prediktor yang berpengaruh signifikan terhadap variabel respon.
Kriteria pengujian:
Tolak \(H_0\) apabila nilai p-value < 0,05.
Uji t digunakan untuk mengetahui pengaruh masing-masing variabel prediktor secara parsial terhadap variabel respon.
Hipotesis:
\[ H_0 : \beta_i = 0 \]
\[ H_1 : \beta_i \neq 0 \]
Kriteria pengujian:
Tolak \(H_0\) apabila nilai p-value < 0,05.
Uji asumsi klasik dilakukan untuk memastikan bahwa model regresi memenuhi asumsi BLUE (Best Linear Unbiased Estimator). Pengujian asumsi klasik meliputi uji normalitas, multikolinieritas, homoskedastisitas, autokorelasi, dan linearitas.
Uji normalitas dilakukan untuk mengetahui apakah residual berdistribusi normal. Pengujian dapat dilakukan menggunakan Q-Q Plot maupun uji statistik seperti Test Shapiro Wilk.
Hipotesis:
\(H_0\): Residual berdistribusi normal.
\(H_1\): Residual tidak berdistribusi normal.
Uji multikolinieritas dilakukan untuk mengetahui adanya hubungan kuat antar variabel prediktor. Salah satu metode yang digunakan adalah Variance Inflation Factor (VIF). Jika nilai VIF < 10 maka tidak terjadi multikolinearitas.
Hipotesis:
\(H_0\): Tidak terjadi multikolinieritas.
\(H_1\): Terjadi multikolinieritas.
Uji homoskedastisitas dilakukan untuk mengetahui apakah varians residual bersifat konstan. Jika residual menyebar secara acak dan tidak membentuk pola tertentu maka asumsi homoskedastisitas terpenuhi.
Hipotesis:
\(H_0\): Tidak terjadi heterokedastisitas (Varians residual homogen).
\(H_1\): Terjadi heterokedastisitas.
Uji autokorelasi dilakukan untuk mengetahui hubungan residual antar pengamatan. Salah satu metode yang digunakan adalah Durbin-Watson Test.
Hipotesis:
\(H_0\): Tidak terdapat autokorelasi pada residual.
\(H_1\): Terdapat autokorelasi pada residual.
Uji linearitas dilakukan untuk mengetahui apakah hubungan antara variabel prediktor dan respon bersifat linear. Salah satu metode yang digunakan adalah Ramsey RESET Test.
Hipotesis:
\(H_0\): Model regresi bersifat linear.
\(H_1\): Model regresi tidak linear.
Pada tahap awal dilakukan impor library yang digunakan dalam analisis regresi linear berganda. Library yang digunakan meliputi readr untuk membaca data, psych untuk statistik deskriptif, car untuk uji multikolinieritas, dan lmtest untuk pengujian asumsi klasik.
Selanjutnya dilakukan impor dataset Student Performance. Dataset terdiri dari 10.000 observasi dengan beberapa variabel yang berkaitan dengan performa siswa.
Variabel Extracurricular Activities tidak digunakan karena merupakan variabel kategorik. Oleh karena itu, dilakukan seleksi data sehingga hanya digunakan variabel numerik.
Student_Perfomance <- subset(
data,
select = -`Extracurricular Activities`
)
View(Student_Perfomance)Dataset yang digunakan terdiri dari empat variabel prediktor yaitu Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced, serta satu variabel respon yaitu Performance Index.
Statistik deskriptif digunakan untuk mengetahui gambaran umum karakteristik data penelitian sebelum dilakukan analisis regresi linear berganda.
Hours Studied Previous Scores Sleep Hours
Min. :1.000 Min. :40.00 Min. :4.000
1st Qu.:3.000 1st Qu.:54.00 1st Qu.:5.000
Median :5.000 Median :69.00 Median :7.000
Mean :4.993 Mean :69.45 Mean :6.531
3rd Qu.:7.000 3rd Qu.:85.00 3rd Qu.:8.000
Max. :9.000 Max. :99.00 Max. :9.000
Sample Question Papers Practiced Performance Index
Min. :0.000 Min. : 10.00
1st Qu.:2.000 1st Qu.: 40.00
Median :5.000 Median : 55.00
Mean :4.583 Mean : 55.22
3rd Qu.:7.000 3rd Qu.: 71.00
Max. :9.000 Max. :100.00
vars n mean sd median trimmed mad
Hours Studied 1 10000 4.99 2.59 5 4.99 2.97
Previous Scores 2 10000 69.45 17.34 69 69.45 22.24
Sleep Hours 3 10000 6.53 1.70 7 6.54 1.48
Sample Question Papers Practiced 4 10000 4.58 2.87 5 4.60 2.97
Performance Index 5 10000 55.22 19.21 55 55.24 22.24
min max range skew kurtosis se
Hours Studied 1 9 8 0.00 -1.23 0.03
Previous Scores 40 99 59 0.00 -1.21 0.17
Sleep Hours 4 9 5 -0.04 -1.26 0.02
Sample Question Papers Practiced 0 9 9 -0.04 -1.21 0.03
Performance Index 10 100 90 0.00 -0.86 0.19
Scatter Plot digunakan untuk melihat pola hubungan awal antara masing-masing variabel prediktor dengan variabel respon.
plot(Student_Perfomance$`Hours Studied`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Hours Studied vs Performance Index",
xlab = "Hours Studied",
ylab = "Performance Index",
pch = 19)plot(Student_Perfomance$`Previous Scores`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Previous Scores vs Performance Index",
xlab = "Previous Scores",
ylab = "Performance Index",
pch = 19)plot(Student_Perfomance$`Sleep Hours`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Sleep Hours vs Performance Index",
xlab = "Sleep Hours",
ylab = "Performance Index",
pch = 19)plot(Student_Perfomance$`Sample Question Papers Practiced`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Question Papers Practiced vs Performance Index",
xlab = "Question Papers Practiced",
ylab = "Performance Index",
pch = 19)Analisis regresi linear berganda dilakukan untuk mengetahui pengaruh variabel prediktor terhadap Performance Index.
model <- lm(
`Performance Index` ~
`Hours Studied` +
`Previous Scores` +
`Sleep Hours` +
`Sample Question Papers Practiced`,
data = Student_Perfomance
)
summary(model)
Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` +
`Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)
Residuals:
Min 1Q Median 3Q Max
-8.3299 -1.3831 -0.0062 1.3701 8.4864
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -33.763726 0.126841 -266.19 <2e-16 ***
`Hours Studied` 2.853429 0.007962 358.40 <2e-16 ***
`Previous Scores` 1.018584 0.001189 857.02 <2e-16 ***
`Sleep Hours` 0.476333 0.012153 39.19 <2e-16 ***
`Sample Question Papers Practiced` 0.195198 0.007189 27.15 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared: 0.9885, Adjusted R-squared: 0.9885
F-statistic: 2.147e+05 on 4 and 9995 DF, p-value: < 2.2e-16
(Intercept) `Hours Studied`
-33.7637261 2.8534292
`Previous Scores` `Sleep Hours`
1.0185835 0.4763330
`Sample Question Papers Practiced`
0.1951983
Pengujian asumsi klasik dilakukan untuk memastikan model regresi memenuhi asumsi BLUE (Best Linear Unbiased Estimator).
Uji normalitas dilakukan menggunakan QQ Plot.
Uji multikolinieritas dilakukan menggunakan Variance Inflation Factor (VIF).
`Hours Studied` `Previous Scores`
1.000464 1.000254
`Sleep Hours` `Sample Question Papers Practiced`
1.000052 1.000386
Uji homoskedastisitas dilakukan menggunakan Breusch-Pagan Test.
studentized Breusch-Pagan test
data: model
BP = 1.5045, df = 4, p-value = 0.8258
Uji autokorelasi dilakukan menggunakan Durbin-Watson Test.
Durbin-Watson test
data: model
DW = 2.0039, p-value = 0.5764
alternative hypothesis: true autocorrelation is greater than 0
Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data penelitian. Analisis dilakukan terhadap seluruh variabel numerik yang digunakan dalam penelitian.
Hours Studied Previous Scores Sleep Hours
Min. :1.000 Min. :40.00 Min. :4.000
1st Qu.:3.000 1st Qu.:54.00 1st Qu.:5.000
Median :5.000 Median :69.00 Median :7.000
Mean :4.993 Mean :69.45 Mean :6.531
3rd Qu.:7.000 3rd Qu.:85.00 3rd Qu.:8.000
Max. :9.000 Max. :99.00 Max. :9.000
Sample Question Papers Practiced Performance Index
Min. :0.000 Min. : 10.00
1st Qu.:2.000 1st Qu.: 40.00
Median :5.000 Median : 55.00
Mean :4.583 Mean : 55.22
3rd Qu.:7.000 3rd Qu.: 71.00
Max. :9.000 Max. :100.00
vars n mean sd median trimmed mad
Hours Studied 1 10000 4.99 2.59 5 4.99 2.97
Previous Scores 2 10000 69.45 17.34 69 69.45 22.24
Sleep Hours 3 10000 6.53 1.70 7 6.54 1.48
Sample Question Papers Practiced 4 10000 4.58 2.87 5 4.60 2.97
Performance Index 5 10000 55.22 19.21 55 55.24 22.24
min max range skew kurtosis se
Hours Studied 1 9 8 0.00 -1.23 0.03
Previous Scores 40 99 59 0.00 -1.21 0.17
Sleep Hours 4 9 5 -0.04 -1.26 0.02
Sample Question Papers Practiced 0 9 9 -0.04 -1.21 0.03
Performance Index 10 100 90 0.00 -0.86 0.19
Berdasarkan hasil statistik deskriptif, diperoleh bahwa variabel Hours Studied memiliki rata-rata sebesar 4,99 jam dengan nilai minimum 1 jam dan maksimum 9 jam. Hal ini menunjukkan bahwa rata-rata siswa belajar sekitar 5 jam per hari.
Variabel Previous Scores memiliki rata-rata sebesar 69,45 dengan rentang data antara 40 hingga 99. Nilai tersebut menunjukkan bahwa sebagian besar siswa memiliki nilai akademik sebelumnya yang cukup baik.
Variabel Sleep Hours memiliki rata-rata sebesar 6,53 jam dengan nilai minimum 4 jam dan maksimum 9 jam. Sementara itu, variabel Sample Question Papers Practiced memiliki rata-rata sebesar 4,58 dengan rentang data antara 0 hingga 9 latihan soal.
Pada variabel respon yaitu Performance Index diperoleh rata-rata sebesar 55,22 dengan nilai minimum 10 dan maksimum 100. Hal ini menunjukkan bahwa performa siswa memiliki variasi yang cukup besar.
Scatter plot digunakan untuk melihat hubungan awal antara variabel prediktor dengan variabel respon.
plot(Student_Perfomance$`Hours Studied`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Hours Studied vs Performance Index",
xlab = "Hours Studied",
ylab = "Performance Index",
pch = 19)Berdasarkan scatter plot, terlihat adanya hubungan positif antara Hours Studied dan Performance Index. Semakin banyak jam belajar siswa, maka nilai Performance Index cenderung meningkat. Hal ini menunjukkan bahwa jam belajar memiliki pengaruh positif terhadap performa akademik siswa.
plot(Student_Perfomance$`Previous Scores`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Previous Scores vs Performance Index",
xlab = "Previous Scores",
ylab = "Performance Index",
pch = 19)Scatter plot menunjukkan hubungan positif yang sangat kuat antara Previous Scores dan Performance Index. Semakin tinggi nilai sebelumnya, maka semakin tinggi pula Performance Index siswa. Pola titik yang membentuk garis naik menunjukkan adanya hubungan linear yang kuat antar variabel.
plot(Student_Perfomance$`Sleep Hours`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Sleep Hours vs Performance Index",
xlab = "Sleep Hours",
ylab = "Performance Index",
pch = 19)Scatter plot menunjukkan bahwa Sleep Hours memiliki hubungan positif terhadap Performance Index, meskipun hubungan yang terlihat tidak sekuat variabel sebelumnya. Siswa dengan jam tidur yang lebih baik cenderung memiliki performa akademik yang sedikit lebih tinggi.
plot(Student_Perfomance$`Sample Question Papers Practiced`,
Student_Perfomance$`Performance Index`,
main = "Scatter Plot Question Papers Practiced vs Performance Index",
xlab = "Question Papers Practiced",
ylab = "Performance Index",
pch = 19)Scatter plot menunjukkan adanya hubungan positif antara jumlah latihan soal yang dikerjakan dengan Performance Index. Semakin banyak latihan soal yang dikerjakan siswa, maka performa akademik cenderung meningkat.
Analisis regresi linear berganda dilakukan untuk mengetahui pengaruh variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced terhadap Performance Index.
model <- lm(
`Performance Index` ~
`Hours Studied` +
`Previous Scores` +
`Sleep Hours` +
`Sample Question Papers Practiced`,
data = Student_Perfomance
)
summary(model)
Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` +
`Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)
Residuals:
Min 1Q Median 3Q Max
-8.3299 -1.3831 -0.0062 1.3701 8.4864
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -33.763726 0.126841 -266.19 <2e-16 ***
`Hours Studied` 2.853429 0.007962 358.40 <2e-16 ***
`Previous Scores` 1.018584 0.001189 857.02 <2e-16 ***
`Sleep Hours` 0.476333 0.012153 39.19 <2e-16 ***
`Sample Question Papers Practiced` 0.195198 0.007189 27.15 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared: 0.9885, Adjusted R-squared: 0.9885
F-statistic: 2.147e+05 on 4 and 9995 DF, p-value: < 2.2e-16
(Intercept) `Hours Studied`
-33.7637261 2.8534292
`Previous Scores` `Sleep Hours`
1.0185835 0.4763330
`Sample Question Papers Practiced`
0.1951983
Berdasarkan hasil regresi linear berganda, diperoleh persamaan model sebagai berikut:
\[ Y = -33.7637 + 2.8534X_1 + 1.0186X_2 + 0.4763X_3 + 0.1952X_4 \]
Keterangan:
Interpretasi model:
Nilai konstanta sebesar -33.764 menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Performance Index diperkirakan sebesar -33.764.
Setiap kenaikan 1 jam belajar akan meningkatkan Performance Index sebesar 2,8534 poin dengan asumsi variabel lain konstan.
Setiap kenaikan 1 poin nilai sebelumnya akan meningkatkan Performance Index sebesar 1.019 poin dengan asumsi variabel lain tetap.
Setiap penambahan 1 jam tidur akan meningkatkan Performance Index sebesar 0.476 poin dengan asumsi variabel lain konstan.
5.Setiap penambahan latihan soal akan meningkatkan Performance Index sebesar 0.195 poin dengan asumsi variabel lain tetap.
Nilai Adjusted R-Squared sebesar 0,9885 menunjukkan bahwa sebesar 98,85% variasi Performance Index dapat dijelaskan oleh variabel prediktor dalam model, sedangkan sisanya dijelaskan oleh faktor lain di luar model.
Uji signifikansi regresi dilakukan untuk mengetahui pengaruh variabel prediktor terhadap variabel respon baik secara simultan maupun parsial.
Hipotesis:
\(H_0\): Seluruh variabel prediktor tidak berpengaruh signifikan terhadap Performance Index.
\(H_1\): Minimal terdapat satu variabel prediktor yang berpengaruh signifikan terhadap Performance Index.
Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` +
`Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)
Residuals:
Min 1Q Median 3Q Max
-8.3299 -1.3831 -0.0062 1.3701 8.4864
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -33.763726 0.126841 -266.19 <2e-16 ***
`Hours Studied` 2.853429 0.007962 358.40 <2e-16 ***
`Previous Scores` 1.018584 0.001189 857.02 <2e-16 ***
`Sleep Hours` 0.476333 0.012153 39.19 <2e-16 ***
`Sample Question Papers Practiced` 0.195198 0.007189 27.15 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared: 0.9885, Adjusted R-squared: 0.9885
F-statistic: 2.147e+05 on 4 and 9995 DF, p-value: < 2.2e-16
Berdasarkan hasil uji F diperoleh nilai p-value < 0,05 sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced secara simultan berpengaruh signifikan terhadap Performance Index.
Hipotesis:
\[ H_0 : \beta_i = 0 \]
\[ H_1 : \beta_i \neq 0 \]
Call:
lm(formula = `Performance Index` ~ `Hours Studied` + `Previous Scores` +
`Sleep Hours` + `Sample Question Papers Practiced`, data = Student_Perfomance)
Residuals:
Min 1Q Median 3Q Max
-8.3299 -1.3831 -0.0062 1.3701 8.4864
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -33.763726 0.126841 -266.19 <2e-16 ***
`Hours Studied` 2.853429 0.007962 358.40 <2e-16 ***
`Previous Scores` 1.018584 0.001189 857.02 <2e-16 ***
`Sleep Hours` 0.476333 0.012153 39.19 <2e-16 ***
`Sample Question Papers Practiced` 0.195198 0.007189 27.15 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.061 on 9995 degrees of freedom
Multiple R-squared: 0.9885, Adjusted R-squared: 0.9885
F-statistic: 2.147e+05 on 4 and 9995 DF, p-value: < 2.2e-16
Berdasarkan hasil uji t, seluruh variabel prediktor memiliki nilai p-value < 0,05 sehingga seluruh variabel prediktor berpengaruh signifikan terhadap Performance Index.
Uji asumsi klasik dilakukan untuk memastikan bahwa model regresi linear berganda memenuhi asumsi BLUE (Best Linear Unbiased Estimator).
Berdasarkan plot diagnostik residual, secara umum residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu. Hal ini menunjukkan bahwa model regresi secara umum telah cukup baik dalam menjelaskan hubungan antara variabel prediktor dan variabel respon.
Hipotesis:
\(H_0\): Residual berdistribusi normal.
\(H_1\): Residual tidak berdistribusi normal.
Berdasarkan QQ Plot, titik-titik residual cenderung mengikuti garis diagonal sehingga residual dapat dikatakan berdistribusi normal.
Hipotesis:
\(H_0\): Tidak terjadi multikolinieritas.
\(H_1\): Terjadi multikolinieritas.
`Hours Studied` `Previous Scores`
1.000464 1.000254
`Sleep Hours` `Sample Question Papers Practiced`
1.000052 1.000386
Hasil uji multikolinearitas menunjukkan seluruh nilai VIF berada di sekitar 1 dan kurang dari 10. Hal ini menunjukkan bahwa tidak terjadi multikolinearitas antar variabel prediktor.
Hipotesis:
\(H_0\): Tidak terjadi heterokedastisitas (Varians residual homogen).
\(H_1\): Terjadi heterokedastisitas.
studentized Breusch-Pagan test
data: model
BP = 1.5045, df = 4, p-value = 0.8258
Berdasarkan uji Breusch-Pagan diperoleh p-value sebesar 0.8258 > 0.05, sehingga \(H_0\) diterima. Hal ini menunjukkan bahwa tidak terjadi heteroskedastisitas atau varians residual bersifat homogen.
Hipotesis:
\(H_0\): Tidak terdapat autokorelasi.
\(H_1\): Terdapat autokorelasi.
Durbin-Watson test
data: model
DW = 2.0039, p-value = 0.5764
alternative hypothesis: true autocorrelation is greater than 0
Hasil uji Durbin-Watson menunjukkan nilai DW sebesar 2.0039 dengan p-value sebesar 0.5764 > 0.05, sehingga dapat disimpulkan bahwa tidak terdapat autokorelasi pada residual model.
Hipotesis:
\(H_0\): Model regresi bersifat linear.
\(H_1\): Model regresi tidak linear.
RESET test
data: model
RESET = 4.9462, df1 = 2, df2 = 9993, p-value = 0.007128
Hasil RESET test menunjukkan p-value sebesar 0.007128 < 0.05, sehingga H0 ditolak. Hal ini menunjukkan bahwa terdapat indikasi ketidaklinearan pada model regresi atau kemungkinan terdapat bentuk model lain yang lebih sesuai.
Berdasarkan hasil analisis regresi linier berganda yag telah dilakukan, dapat disimpulkan bahwa variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced berpengaruh signifikan terhadap Performance Index siswa.
Model regresi yang terbentuk memiliki nilai Adjusted R-Squared sebesar 0,9885 yang menunjukkan bahwa sebesar 98,85% variasi Performance Index dapat dijelaskan oleh variabel prediktor dalam model.
Selain itu, hasil uji asumsi menunjukkan bahwa model telah memenuhi asumsi normalitas, non multikolinearitas, homoskedastisitas, dan non autokorelasi, meskipun pada uji linearitas masih terdapat indikasi bahwa model belum sepenuhnya linear. Secara umum, model regresi yang diperoleh sudah cukup baik untuk menjelaskan hubungan antara faktor-faktor belajar terhadap performa akademik siswa.
Aini, R., Yulianto, T., & Kuzairi. (2025). Metode Regresi Linier Berganda Berbasis Machine Learning untuk Memprediksi Peminjaman Buku di Kabupaten Pamekasan. MATHunesa Jurnal Ilmiah Matematika, 487-493.
Ghozali, I. (2018). Aplikasi Analisis Multivariate dengan Program IBM SPSS 25. Semarang: Badan Penerbit Universitas Diponegoro.
Santoso, S. (2018). Mahir Statistik Multivariat dengan SPSS. Jakarta: PT Elex Media Komputindo.
Student Performance Dataset. (2023). Kaggle. Diakses dari: https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression