Prestasi akademik siswa merupakan salah satu indikator utama keberhasilan proses pendidikan. Capaian akademik tidak hanya mencerminkan kemampuan kognitif siswa, tetapi juga efektivitas sistem pembelajaran, dukungan lingkungan, serta kebiasaan belajar individu. Menurut UNESCO, kualitas pendidikan sangat dipengaruhi oleh faktor internal peserta didik serta faktor eksternal yang mendukung proses belajar.
Secara teoritis, teori human capital menyatakan bahwa investasi dalam pendidikan, termasuk waktu dan usaha belajar, akan meningkatkan produktivitas individu di masa depan. Konsep ini pertama kali diperkenalkan secara sistematis oleh Gary Becker dalam karyanya Human Capital (1964), yang menjelaskan bahwa peningkatan jam belajar dan kualitas pembelajaran berkorelasi positif dengan hasil akademik.
Berbagai penelitian empiris mendukung teori tersebut. Credé, Roch, dan Kieszczynka (2010) dalam studi meta-analisis menemukan bahwa kebiasaan belajar (study habits) memiliki hubungan signifikan dengan prestasi akademik mahasiswa. Selain itu, nilai akademik sebelumnya sering digunakan sebagai indikator kemampuan dasar siswa yang berperan dalam memprediksi performa selanjutnya.
Faktor non-akademik juga turut berperan. Penelitian oleh Curcio, Ferrara, dan De Gennaro (2006) menunjukkan bahwa durasi dan kualitas tidur berpengaruh terhadap fungsi kognitif serta konsentrasi belajar. Sementara itu, keterlibatan dalam kegiatan ekstrakurikuler dilaporkan dapat meningkatkan motivasi, disiplin, serta keterampilan sosial siswa yang secara tidak langsung mendukung performa akademik (Fredricks & Eccles, 2006).
Di sisi lain, intensitas latihan melalui pengerjaan soal-soal latihan juga berkontribusi terhadap peningkatan pemahaman materi dan kesiapan menghadapi evaluasi akademik. Oleh karena itu, kombinasi faktor akademik dan non-akademik perlu dianalisis secara simultan untuk memahami kontribusi masing-masing variabel terhadap performa siswa.
Berdasarkan uraian tersebut, penelitian ini bertujuan untuk menganalisis pengaruh Jam Belajar (Hours Studied), Nilai Sebelumnya (Previous Scores), Kegiatan Ekstrakurikuler (Extracurricular Activities), Jam Tidur (Sleep Hours), dan Jumlah Latihan Soal (Sample Question Papers Practiced) terhadap Indeks Performa Siswa (Performance Index) menggunakan metode regresi linier berganda.
Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dalam penelitian ini adalah:
Berdasarkan rumusan masalah yang telah ditentukan, maka tujuan penelitian ini adalah:
Penelitian ini diharapkan dapat memberikan kontribusi secara teoritis dalam pengembangan ilmu statistika terapan, khususnya dalam penerapan metode regresi linear berganda untuk menganalisis faktor-faktor yang memengaruhi prestasi akademik siswa. Secara praktis, hasil penelitian ini diharapkan dapat memberikan gambaran kepada siswa mengenai faktor-faktor yang berpengaruh terhadap Indeks Performa Siswa sehingga dapat menjadi bahan evaluasi dalam meningkatkan hasil belajar. Selain itu, penelitian ini dapat menjadi bahan pertimbangan bagi pendidik dan institusi pendidikan dalam merancang strategi pembelajaran yang lebih efektif. Bagi peneliti selanjutnya, penelitian ini dapat dijadikan referensi untuk pengembangan studi lanjutan dengan penambahan variabel atau penggunaan metode analisis yang berbeda.
Regresi adalah metode statistik yang digunakan untuk menganalisis hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X). Metode ini memungkinkan peneliti memprediksi nilai variabel dependen berdasarkan variabel bebas (Gujarati & Porter, 2009). Dalam regresi linier, hubungan antar variabel diasumsikan bersifat linier, sehingga hasil prediksi mengikuti garis lurus.
Regresi linier berganda (Multiple Linear Regression) merupakan pengembangan dari regresi linier sederhana. Dalam regresi linier sederhana, hanya ada satu variabel bebas, sedangkan regresi linier berganda melibatkan dua atau lebih variabel bebas untuk menjelaskan variabel dependen (Santoso, 2015). Regresi linier berganda memiliki beberapa tujuan, antara lain untuk mengetahui pengaruh dua atau lebih variabel bebas terhadap variabel dependen, memprediksi nilai variabel dependen berdasarkan kombinasi nilai variabel independen, serta menentukan arah dan besaran hubungan antar variabel, baik positif maupun negatif (Ghozali, 2016). Model regresi linier berganda secara matematis ditulis: \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon\).
Keterangan:
- \(Y\) = Variabel dependen
- \(X_1, X_2, \dots, X_k\) = Variabel
independen
- \(\beta_0\) = Intersep
- \(\beta_1, \dots, \beta_k\) =
Koefisien regresi
- \(\varepsilon\) = Error
term
Model ini dapat diestimasi menggunakan metode Kuadrat Terkecil (Ordinary Least Squares — OLS) yang meminimalkan jumlah kuadrat residual (selisih antara nilai aktual dan nilai prediksi). Koefisien regresi (\(\beta\)) menunjukkan besar pengaruh masing-masing variabel bebas terhadap variabel dependen; nilai koefisien positif menandakan hubungan yang searah, sedangkan nilai negatif menunjukkan hubungan yang berlawanan, dengan asumsi variabel lain tetap (Hair et al., 2010).
Uji asumsi dilakukan untuk memastikan bahwa model regresi linier berganda memenuhi asumsi klasik sehingga hasil estimasi yang diperoleh bersifat tidak bias, efisien, dan dapat digunakan untuk pengujian hipotesis secara valid.
Beberapa asumsi yang harus dipenuhi meliputi linearitas, independensi residual, homoskedastisitas, tidak adanya multikolinearitas, serta normalitas residual. Apabila salah satu asumsi tidak terpenuhi, maka hasil analisis dapat menjadi kurang akurat atau menyesatkan.
Oleh karena itu, sebelum melakukan interpretasi koefisien regresi dan pengujian hipotesis, perlu dilakukan pengujian terhadap asumsi-asumsi tersebut (Gujarati & Porter, 2009; Santoso, 2015).
Asumsi normalitas menyatakan bahwa residual (error) dalam model regresi terdistribusi normal dengan rata-rata nol dan varians konstan, yang dinyatakan sebagai: \[ \varepsilon_i \sim N(0, \sigma^2) \]Asumsi ini penting terutama untuk validitas uji t dan uji F, khususnya pada sampel kecil. Pada sampel besar, berdasarkan Teorema Limit Pusat, pelanggaran normalitas umumnya tidak terlalu memengaruhi hasil estimasi (Gujarati & Porter, 2009).
Normalitas residual dapat diperiksa melalui pendekatan visual maupun statistik. Secara visual, residual dikatakan normal apabila histogram membentuk pola lonceng dan titik-titik pada grafik P-P Plot atau Q-Q Plot mengikuti garis diagonal.
Secara statistik, pengujian dapat dilakukan menggunakan uji Kolmogorov-Smirnov atau Shapiro-Wilk, dengan kriteria jika nilai signifikansi > 0,05 maka residual berdistribusi normal (Santoso, 2015).
Apabila asumsi ini tidak terpenuhi, peneliti dapat melakukan transformasi data atau menggunakan metode estimasi yang lebih robust.
Asumsi linearitas menyatakan bahwa hubungan antara variabel independen dan variabel dependen dalam regresi linier berganda bersifat linier. Artinya, perubahan pada variabel bebas akan diikuti oleh perubahan yang searah dan proporsional pada variabel terikat, dengan asumsi variabel lain tetap (ceteris paribus).
Apabila hubungan yang sebenarnya tidak linier, maka model dapat mengalami kesalahan spesifikasi (misspecification) sehingga estimasi koefisien menjadi kurang akurat dan kemampuan prediksi model menurun (Gujarati & Porter, 2009).
Pengujian linearitas umumnya dilakukan melalui pendekatan visual, seperti scatterplot antara variabel independen dan dependen serta plot residual terhadap nilai prediksi. Jika titik-titik data membentuk pola mendekati garis lurus dan residual menyebar secara acak di sekitar nol, maka asumsi linearitas dapat dikatakan terpenuhi.
Asumsi homoskedastisitas menyatakan bahwa varians residual bersifat konstan pada seluruh tingkat variabel independen. Dengan kata lain, penyebaran error tidak berubah-ubah pada setiap nilai prediksi, sehingga model memiliki tingkat ketelitian yang sama pada berbagai kondisi data.
Apabila varians residual berbeda pada tingkat tertentu, maka terjadi heteroskedastisitas. Kondisi ini tidak menyebabkan koefisien regresi menjadi bias, tetapi dapat membuat estimasi menjadi tidak efisien dan standar error menjadi tidak akurat, sehingga uji t dan uji F berpotensi memberikan kesimpulan yang keliru (Gujarati & Porter, 2009). Heteroskedastisitas umumnya ditandai dengan adanya pola tertentu pada sebaran residual.
Pengujian homoskedastisitas dapat dilakukan melalui plot residual terhadap nilai prediksi. Jika titik-titik menyebar secara acak dan tidak membentuk pola tertentu (seperti pola kipas, mengerucut, atau bergelombang), maka asumsi homoskedastisitas dapat dikatakan terpenuhi. Selain itu, pengujian juga dapat dilakukan menggunakan uji statistik seperti Breusch-Pagan atau Glejser untuk mendeteksi adanya ketidaksamaan varians secara lebih formal.
Asumsi non-multikolinearitas menyatakan bahwa antar variabel independen dalam model regresi tidak memiliki hubungan korelasi yang sangat tinggi. Artinya, setiap variabel bebas harus memberikan informasi yang unik dalam menjelaskan variabel dependen, sehingga kontribusi masing-masing variabel dapat diestimasi secara jelas.
Apabila terjadi multikolinearitas, maka koefisien regresi dapat menjadi tidak stabil, memiliki standar error yang besar, dan tanda koefisien dapat berubah-ubah. Meskipun estimasi tetap tidak bias, tingkat ketelitian model menjadi menurun sehingga pengujian hipotesis kurang reliabel dan interpretasi pengaruh masing-masing variabel menjadi sulit (Gujarati & Porter, 2009).
Deteksi multikolinearitas dapat dilakukan melalui matriks korelasi antar variabel independen serta perhitungan Variance Inflation Factor (VIF). Secara umum, nilai VIF lebih dari 10 atau nilai tolerance kurang dari 0,1 menunjukkan adanya indikasi multikolinearitas yang tinggi. Selain itu, nilai korelasi antar variabel independen yang mendekati ±1 juga dapat menjadi indikasi awal adanya masalah tersebut. Jika nilai VIF masih dalam batas wajar, maka asumsi non-multikolinearitas dapat dikatakan terpenuhi.
Asumsi non-autokorelasi menyatakan bahwa residual pada satu pengamatan tidak berkorelasi dengan residual pada pengamatan lainnya. Dengan kata lain, setiap error bersifat independen dan tidak saling memengaruhi.
Apabila terjadi autokorelasi, maka estimasi koefisien regresi memang tetap tidak bias, tetapi menjadi tidak efisien dan standar error dapat menjadi tidak akurat. Akibatnya, pengujian hipotesis menggunakan uji t dan uji F berpotensi menghasilkan kesimpulan yang keliru (Gujarati & Porter, 2009). Autokorelasi umumnya sering terjadi pada data runtun waktu (time series), karena adanya pola atau kecenderungan tertentu dari waktu ke waktu.
Pengujian autokorelasi dapat dilakukan menggunakan uji Durbin-Watson. Secara umum, nilai statistik Durbin-Watson yang mendekati 2 menunjukkan tidak adanya autokorelasi, sedangkan nilai yang mendekati 0 mengindikasikan autokorelasi positif dan nilai yang mendekati 4 mengindikasikan autokorelasi negatif. Jika hasil pengujian menunjukkan tidak adanya korelasi antar residual, maka asumsi non-autokorelasi dapat dikatakan terpenuhi.
Uji signifikansi dalam regresi linier berganda digunakan untuk mengetahui apakah variabel independen yang dimasukkan ke dalam model memiliki pengaruh yang signifikan terhadap variabel dependen. Melalui pengujian ini, peneliti dapat menilai apakah hubungan yang terbentuk dalam model terjadi secara nyata secara statistik atau hanya disebabkan oleh faktor kebetulan semata.
Pengujian signifikansi dilakukan baik secara simultan maupun parsial untuk memastikan bahwa model yang dibentuk layak digunakan dalam analisis dan penarikan kesimpulan. Uji simultan digunakan untuk melihat pengaruh variabel independen secara bersama-sama terhadap variabel dependen, sedangkan uji parsial digunakan untuk mengetahui pengaruh masing-masing variabel secara individual. Dengan demikian, uji signifikansi berperan penting dalam menentukan validitas model regresi yang digunakan dalam penelitian (Gujarati & Porter, 2009).
Uji F digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama berpengaruh signifikan terhadap variabel dependen. Dengan kata lain, uji ini bertujuan untuk menilai apakah model regresi yang dibentuk secara keseluruhan mampu menjelaskan variasi variabel dependen secara signifikan dibandingkan dengan model tanpa variabel independen.
Hipotesis yang diuji adalah: \[ \begin{aligned} H_0 &: \beta_1 = \beta_2 = \dots = \beta_k = 0 \\ H_1 &: \text{Minimal terdapat satu } \beta_i \neq 0 \end{aligned} \]
Statistik uji F diperoleh dari perbandingan antara ragam yang dijelaskan oleh model dan ragam sisa (error). Apabila nilai signifikansi (\(p\)-value) < 0,05, maka \(H_0\) ditolak, yang berarti model regresi secara keseluruhan signifikan dan layak digunakan dalam analisis. Sebaliknya, jika \(p\)-value \(\geq\) 0,05, maka model dianggap belum mampu menjelaskan variabel dependen secara memadai (Gujarati & Porter, 2009).
Uji t digunakan untuk mengetahui apakah masing-masing variabel independen secara individual berpengaruh signifikan terhadap variabel dependen. Uji ini bertujuan untuk menilai kontribusi setiap variabel bebas dalam menjelaskan variasi variabel terikat, dengan asumsi variabel lain dianggap konstan.
Hipotesis yang diuji adalah: \[ \begin{aligned} H_0 &: \beta_i = 0 \quad (\text{tidak berpengaruh signifikan}) \\ H_1 &: \beta_i \neq 0 \quad (\text{berpengaruh signifikan}) \end{aligned} \] Statistik uji t diperoleh dari perbandingan antara koefisien regresi dengan standar error-nya. Apabila nilai signifikansi (\(p\)-value) \(< 0{,}05\), maka \(H_0\) ditolak, yang berarti variabel independen tersebut berpengaruh signifikan terhadap variabel dependen. Sebaliknya, jika \(p\)-value \(\geq 0{,}05\), maka variabel tersebut tidak memiliki pengaruh yang signifikan dalam model (Gujarati & Porter, 2009).
Koefisien determinasi (\(R^2\)) digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam model regresi. Nilai \(R^2\) berada pada rentang 0 hingga 1. Semakin besar nilai \(R^2\), maka semakin besar proporsi variasi variabel dependen yang dapat dijelaskan oleh model.
Secara matematis, koefisien determinasi dapat dinyatakan sebagai: \[ R^2 = \frac{SSR}{SST} \] di mana \(SSR\) adalah jumlah kuadrat regresi (Sum of Squares Regression) dan \(SST\) adalah jumlah kuadrat total (Total Sum of Squares).
Nilai \(R^2\) yang mendekati 1 menunjukkan bahwa model memiliki kemampuan penjelasan yang baik, sedangkan nilai yang mendekati 0 menunjukkan bahwa variabel independen kurang mampu menjelaskan variasi variabel dependen.
Dalam regresi linier berganda, sering digunakan Adjusted \(R^2\) karena telah disesuaikan dengan jumlah variabel dalam model, sehingga memberikan ukuran yang lebih akurat terutama ketika jumlah variabel independen lebih dari satu (Gujarati & Porter, 2009).
Penelitian ini menggunakan data sekunder yang diperoleh dari repository dataset online pada platform Kaggle, yaitu Student Performance Multiple Linear Regression Dataset yang dipublikasikan oleh pengguna nikhil7280 (2023). Dataset tersebut terdiri atas 10.000 observasi dengan 6 variabel independen dan 1 variabel dependen.
Variabel independen yang digunakan meliputi jam belajar (Hours Studied), nilai sebelumnya (Previous Scores), jam tidur (Sleep Hours), aktivitas ekstrakurikuler (Extracurricular Activities), jumlah latihan soal (Sample Question Papers Practiced), serta faktor lainnya yang memengaruhi performa siswa. Adapun variabel dependen dalam penelitian ini adalah indeks performa siswa (Performance Index).
Sumber data ini dipilih karena menyediakan informasi numerik dan kategorikal yang lengkap serta sesuai dengan tujuan penelitian, yakni menguji pengaruh berbagai faktor terhadap performa akademik siswa. Seluruh data dianalisis secara statistik tanpa melakukan pengambilan data primer di lapangan, sehingga penelitian ini bersifat kuantitatif dengan pendekatan asosiatif.
Sumber dataset dapat diakses melalui tautan berikut: Student Performance Dataset
Teknik analisis data dalam penelitian ini dilakukan secara bertahap menggunakan software R Studio, dengan tahapan sebagai berikut:
Tahap awal dilakukan pemeriksaan struktur data untuk memastikan kesesuaian tipe variabel. Penyesuaian dilakukan apabila terdapat variabel yang perlu diubah ke dalam bentuk numerik atau faktor. Selain itu, dilakukan pengecekan kelengkapan data.
Analisis eksploratori dilakukan untuk memahami karakteristik data, meliputi:
Model regresi linier berganda dibentuk untuk menganalisis pengaruh variabel independen terhadap indeks performa siswa sebagai variabel dependen.
Sebelum interpretasi model, dilakukan pengujian asumsi klasik yang meliputi:
Setelah model memenuhi asumsi, dilakukan uji signifikansi simultan (uji F) dan parsial (uji t). Selanjutnya, dievaluasi nilai koefisien determinasi (\(R^2\) dan Adjusted \(R^2\)) untuk mengukur kemampuan model dalam menjelaskan variasi variabel dependen.
Data diimpor ke dalam R menggunakan fungsi read.csv() dengan separator titik koma (;). Fungsi head() digunakan untuk menampilkan beberapa baris awal sebagai verifikasi bahwa data telah terbaca dengan benar.
## 'data.frame': 10000 obs. of 6 variables:
## $ Hours.Studied : int 7 4 8 5 7 3 7 8 5 4 ...
## $ Previous.Scores : int 99 82 51 52 75 78 73 45 77 89 ...
## $ Extracurricular.Activities : chr "Yes" "No" "Yes" "Yes" ...
## $ Sleep.Hours : int 9 4 7 5 8 9 5 4 8 4 ...
## $ Sample.Question.Papers.Practiced: int 1 2 2 2 5 6 6 6 2 0 ...
## $ Performance.Index : num 91 65 45 36 66 61 63 42 61 69 ...
Berdasarkan struktur data, seluruh variabel numerik telah terbaca dengan benar. Namun variabel Extracurricular Activities masih bertipe character sehingga perlu dikonversi menjadi factor menggunakan fungsi as.factor() sebelum dilakukan analisis regresi linier berganda.
## 'data.frame': 10000 obs. of 6 variables:
## $ Hours.Studied : int 7 4 8 5 7 3 7 8 5 4 ...
## $ Previous.Scores : int 99 82 51 52 75 78 73 45 77 89 ...
## $ Extracurricular.Activities : Factor w/ 2 levels "No","Yes": 2 1 2 2 1 1 2 2 1 1 ...
## $ Sleep.Hours : int 9 4 7 5 8 9 5 4 8 4 ...
## $ Sample.Question.Papers.Practiced: int 1 2 2 2 5 6 6 6 2 0 ...
## $ Performance.Index : num 91 65 45 36 66 61 63 42 61 69 ...
Hasil output menunjukkan bahwa variabel Extracurricular Activities telah berhasil diubah menjadi tipe faktor (factor) dengan dua kategori, yaitu “No” dan “Yes”, sehingga sesuai untuk dianalisis sebagai variabel kategorik dalam model regresi.
## Hours.Studied Previous.Scores Extracurricular.Activities Sleep.Hours
## Min. :1.000 Min. :40.00 No :5052 Min. :4.000
## 1st Qu.:3.000 1st Qu.:54.00 Yes:4948 1st Qu.:5.000
## Median :5.000 Median :69.00 Median :7.000
## Mean :4.993 Mean :69.45 Mean :6.531
## 3rd Qu.:7.000 3rd Qu.:85.00 3rd Qu.:8.000
## Max. :9.000 Max. :99.00 Max. :9.000
## Sample.Question.Papers.Practiced Performance.Index
## Min. :0.000 Min. : 10.00
## 1st Qu.:2.000 1st Qu.: 40.00
## Median :5.000 Median : 55.00
## Mean :4.583 Mean : 55.22
## 3rd Qu.:7.000 3rd Qu.: 71.00
## Max. :9.000 Max. :100.00
Berdasarkan hasil statistik deskriptif, diperoleh gambaran umum karakteristik masing-masing variabel dalam dataset.
Variabel Hours Studied memiliki nilai minimum 1 jam dan maksimum 9 jam, dengan rata-rata sebesar 4,993 jam dan median 5 jam. Hal ini menunjukkan bahwa secara umum siswa belajar sekitar 5 jam.
Variabel Previous Scores memiliki nilai minimum 40 dan maksimum 99, dengan rata-rata 69,45 serta median 69. Nilai rata-rata yang mendekati median menunjukkan distribusi data yang relatif simetris.
Untuk variabel kategorik Extracurricular Activities, terdapat 5.052 siswa (50,52%) yang tidak mengikuti kegiatan ekstrakurikuler dan 4.948 siswa (49,48%) yang mengikuti kegiatan ekstrakurikuler. Komposisi ini menunjukkan distribusi kategori yang relatif seimbang.
Variabel Sleep Hours memiliki rentang antara 4 hingga 9 jam, dengan rata-rata 6,531 jam dan median 7 jam. Hal ini menunjukkan bahwa sebagian besar siswa tidur sekitar 6–7 jam per hari.
Variabel Sample Question Papers Practiced memiliki nilai minimum 0 dan maksimum 9, dengan rata-rata 4,583 dan median 5. Ini menunjukkan bahwa secara umum siswa mengerjakan sekitar 4–5 latihan soal.
Terakhir, variabel Performance Index sebagai variabel dependen memiliki nilai minimum 10 dan maksimum 100, dengan rata-rata 55,22 serta median 55. Nilai rata-rata yang hampir sama dengan median menunjukkan bahwa distribusi indeks performa siswa cenderung cukup simetris.
par(mfrow = c(2, 3)) # 2 baris, 3 kolom
num_vars <- c("Hours.Studied",
"Previous.Scores",
"Sleep.Hours",
"Sample.Question.Papers.Practiced",
"Performance.Index")
for (v in num_vars) {
hist(data[[v]],
main = paste("Histogram of", v),
xlab = v)
}
par(mfrow = c(1,1)) Berdasarkan histogram yang ditampilkan, variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced menunjukkan distribusi yang relatif merata pada setiap rentang nilainya, tanpa adanya lonjakan ekstrem pada nilai tertentu. Hal ini mengindikasikan bahwa penyebaran data pada variabel-variabel tersebut cukup seimbang.
Sementara itu, variabel Performance Index menunjukkan pola distribusi yang cenderung mendekati bentuk lonceng (bell-shaped), dengan konsentrasi frekuensi lebih tinggi pada nilai tengah dibandingkan nilai ekstrem. Hal ini mengindikasikan bahwa sebagian besar siswa memiliki indeks performa pada kategori sedang, dan relatif sedikit yang berada pada nilai sangat rendah maupun sangat tinggi.
Berdasarkan boxplot variabel numerik, terlihat bahwa seluruh variabel memiliki sebaran data yang relatif stabil tanpa adanya pencilan (outlier) yang ekstrem.
Variabel Hours Studied dan Sleep Hours menunjukkan rentang yang tidak terlalu lebar dengan median berada di sekitar nilai tengah distribusi, menandakan penyebaran data yang cukup simetris.
Variabel Previous Scores dan Performance Index memiliki rentang yang lebih luas dibandingkan variabel lainnya, yang menunjukkan variasi nilai antar siswa cukup besar. Namun demikian, tidak terlihat adanya nilai yang menyimpang secara signifikan dari pola umum data.
Secara keseluruhan, boxplot mengindikasikan bahwa distribusi variabel numerik relatif terkendali dan tidak menunjukkan masalah outlier yang dapat mengganggu analisis regresi.
Berdasarkan diagram batang frekuensi Extracurricular Activities, terlihat bahwa jumlah siswa yang mengikuti kegiatan ekstrakurikuler dan yang tidak mengikuti relatif seimbang. Frekuensi kategori “No” dan “Yes” menunjukkan proporsi yang hampir sama, masing-masing sekitar setengah dari total observasi.
Hal ini mengindikasikan bahwa variabel kategorik tersebut memiliki distribusi yang seimbang sehingga tidak menimbulkan dominasi salah satu kategori dalam analisis regresi.
par(mfrow = c(2,2)) # 2 baris 2 kolom
predictors <- c("Hours.Studied",
"Previous.Scores",
"Sleep.Hours",
"Sample.Question.Papers.Practiced")
for (v in predictors) {
plot(data[[v]], data$Performance.Index,
xlab = v,
ylab = "Performance Index",
main = paste(v, "vs Performance Index"))
}Berdasarkan analisis scatter plot, hubungan antara beberapa variabel dengan Performance Index menunjukkan pola yang berbeda-beda. Untuk variabel Hours Studied, titik-titik data tersebar secara vertikal tanpa membentuk pola tertentu, sehingga dapat disimpulkan bahwa jumlah jam belajar tidak memiliki pengaruh langsung yang signifikan terhadap Performance Index. Sebaliknya, pada variabel Previous Scores, terlihat adanya pola kenaikan yang cukup jelas, menandakan adanya korelasi positif antara skor sebelumnya dengan Performance Index; semakin tinggi skor sebelumnya, cenderung semakin tinggi pula Performance Index yang dicapai. Variabel Sleep Hours menunjukkan sebaran titik yang acak, sehingga tidak terdapat indikasi hubungan yang konsisten antara jumlah jam tidur dengan kinerja peserta. Hal yang serupa juga terlihat pada variabel Sample Question Papers Practiced, di mana sebaran data tidak menunjukkan pola tertentu, menandakan bahwa jumlah latihan soal yang dilakukan peserta tidak memiliki pengaruh langsung yang nyata terhadap Performance Index.
Temuan ini bersifat visualisasi awal dan hanya memberikan indikasi hubungan antar variabel. Untuk memperoleh kesimpulan yang lebih akurat, diperlukan analisis statistik lebih lanjut yakni regresi linier berganda.
boxplot(Performance.Index ~ Extracurricular.Activities,
data = data,
main = "Performance Index by Extracurricular Activities")Berdasarkan boxplot Performance Index yang dikelompokkan berdasarkan partisipasi dalam kegiatan ekstrakurikuler, terlihat bahwa median nilai pada kedua kelompok (mengikuti dan tidak mengikuti ekstrakurikuler) berada pada kisaran yang hampir sama. Hal ini menunjukkan bahwa secara deskriptif tidak terdapat perbedaan yang mencolok dalam nilai tengah antara kedua kelompok tersebut.
Selain itu, rentang interkuartil (IQR) pada kedua kelompok juga relatif serupa, yang mengindikasikan tingkat variasi data yang hampir sama. Nilai minimum dan maksimum pada masing-masing kelompok pun berada dalam kisaran yang tidak jauh berbeda.
Secara keseluruhan, berdasarkan analisis visual terhadap boxplot, partisipasi dalam kegiatan ekstrakurikuler tidak menunjukkan perbedaan yang signifikan terhadap Performance Index. Namun, untuk memastikan adanya perbedaan yang bermakna secara statistik, diperlukan pengujian lebih lanjut yakni regresi linier berganda.
## Hours.Studied Previous.Scores Sleep.Hours
## Hours.Studied 1.000000000 -0.012389916 0.001245198
## Previous.Scores -0.012389916 1.000000000 0.005944219
## Sleep.Hours 0.001245198 0.005944219 1.000000000
## Sample.Question.Papers.Practiced 0.017463168 0.007888025 0.003990220
## Performance.Index 0.373730351 0.915189141 0.048105835
## Sample.Question.Papers.Practiced
## Hours.Studied 0.017463168
## Previous.Scores 0.007888025
## Sleep.Hours 0.003990220
## Sample.Question.Papers.Practiced 1.000000000
## Performance.Index 0.043268327
## Performance.Index
## Hours.Studied 0.37373035
## Previous.Scores 0.91518914
## Sleep.Hours 0.04810584
## Sample.Question.Papers.Practiced 0.04326833
## Performance.Index 1.00000000
Berdasarkan matriks korelasi, variabel yang memiliki hubungan paling kuat dengan Performance Index adalah Previous Scores (r = 0,915), yang menunjukkan korelasi positif sangat kuat. Hal ini mengindikasikan bahwa semakin tinggi nilai sebelumnya, semakin tinggi pula Performance Index. Selanjutnya, Hours Studied memiliki korelasi positif sedang (r = 0,374), sehingga waktu belajar juga berasosiasi dengan peningkatan kinerja, meskipun tidak sekuat nilai sebelumnya. Sementara itu, Sleep Hours (r = 0,048) dan Sample Question Papers Practiced (r = 0,043) menunjukkan hubungan positif yang sangat lemah terhadap Performance Index.
Secara keseluruhan, hubungan antar variabel numerik (Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced) relatif sangat lemah karena seluruh nilai korelasi antarvariabel tersebut mendekati nol. Hal ini menunjukkan tidak adanya hubungan linear yang kuat antarvariabel independen, sehingga secara umum tidak terdapat indikasi multikolinearitas yang berarti.
##
## Call:
## lm(formula = Performance.Index ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.6333 -1.3684 -0.0311 1.3556 8.7932
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -34.075588 0.127143 -268.01 <2e-16 ***
## Hours.Studied 2.852982 0.007873 362.35 <2e-16 ***
## Previous.Scores 1.018434 0.001175 866.45 <2e-16 ***
## Extracurricular.ActivitiesYes 0.612898 0.040781 15.03 <2e-16 ***
## Sleep.Hours 0.480560 0.012022 39.97 <2e-16 ***
## Sample.Question.Papers.Practiced 0.193802 0.007110 27.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.038 on 9994 degrees of freedom
## Multiple R-squared: 0.9888, Adjusted R-squared: 0.9887
## F-statistic: 1.757e+05 on 5 and 9994 DF, p-value: < 2.2e-16
Berdasarkan hasil estimasi menggunakan metode Ordinary Least Squares (OLS), diperoleh model awal regresi sebagai berikut:
\[ \hat{Y} = -34.076 + 2.853X_1 + 1.018X_2 + 0.613D_1 + 0.481X_3 + 0.194X_4 \]
dengan:
Berdasarkan grafik uji normalitas (Normal Q-Q Plot), terlihat bahwa titik-titik residual menyebar di sekitar dan mengikuti arah garis diagonal. Pola penyebaran tersebut menunjukkan bahwa residual cenderung berdistribusi normal.
Dengan demikian, dapat disimpulkan bahwa asumsi normalitas residual secara visual pada model regresi telah terpenuhi.
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: res
## D = 0.0066049, p-value = 0.3621
Berdasarkan hasil uji normalitas Lilliefors (Kolmogorov-Smirnov) terhadap residual, diperoleh nilai statistik uji sebesar D = 0,0066 dengan p-value = 0,3621. Nilai p-value yang lebih besar dari (alfa) 0,05 menunjukkan bahwa residual model regresi berdistribusi normal.
Dengan demikian, asumsi normalitas pada model regresi telah terpenuhi sehingga model layak digunakan untuk analisis lebih lanjut.
Berdasarkan plot Residuals vs Fitted, titik-titik residual menyebar secara acak di sekitar garis nol tanpa membentuk pola tertentu. Hal ini menunjukkan bahwa hubungan antara variabel independen dan variabel dependen bersifat linear. Maka, dapat disimpulkan bahwa asumsi linearitas terpenuhi.
## Loading required package: carData
Berdasarkan grafik Component + Residual Plots, terlihat bahwa hubungan antara masing-masing variabel independen dengan Performance Index cenderung membentuk pola garis lurus. Garis tren (smooth line) pada variabel Hours Studied, Previous Scores, Sleep Hours, dan Sample Question Papers Practiced menunjukkan kecenderungan linear tanpa pola lengkungan (curvature) yang berarti.
Selain itu, untuk variabel kategorik Extracurricular Activities, perbedaan rata-rata antar kategori terlihat konsisten dan tidak menunjukkan pola penyimpangan non-linear.
Dengan demikian, secara visual tidak terdapat indikasi pelanggaran terhadap asumsi linearitas. Oleh karena itu, dapat disimpulkan bahwa asumsi linearitas secara visual telah terpenuhi.
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 2.1594, df = 5, p-value = 0.8267
Berdasarkan hasil uji heteroskedastisitas menggunakan studentized Breusch-Pagan test,* diperoleh nilai statistik uji sebesar BP = 2,1594 dengan p-value = 0,8267. Nilai p-value yang lebih besar dari 0,05 menunjukkan bahwa tidak terdapat indikasi heteroskedastisitas pada model regresi.
Dengan demikian, varians residual dapat dianggap konstan (homoskedastisitas terpenuhi), sehingga asumsi klasik terkait kesamaan varians residual dalam model regresi telah terpenuhi.
## Hours.Studied Previous.Scores
## 1.000478 1.000326
## Extracurricular.Activities Sleep.Hours
## 1.000802 1.000600
## Sample.Question.Papers.Practiced
## 1.000557
Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), seluruh variabel independen memiliki nilai VIF kurang dari 10. Hal ini menunjukkan bahwa tidak terdapat masalah multikolinearitas dalam model regresi. Maka, dapat disimpulkan bahwa asumsi non-multikolinearitas terpenuhi.
##
## Durbin-Watson test
##
## data: model
## DW = 2.0009, p-value = 0.5179
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan uji Durbin–Watson diperoleh nilai statistik sebesar 2.0009 dengan p-value sebesar 0,5179. Nilai statistik yang mendekati 2 dan p-value lebih dari alfa yakni 0,5179 lebih dari 0,05 menunjukkan bahwa tidak terdapat autokorelasi pada residual model. Dengan demikian, asumsi non-autokorelasi dalam regresi linear terpenuhi.
\[ H_0 : \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0 \] (Seluruh variabel independen secara simultan tidak berpengaruh terhadap Performance Index)
\[ H_1 : \text{Minimal terdapat satu } \beta_i \neq 0, \; i = 1,2,3,4,5 \] (Minimal terdapat satu variabel independen yang berpengaruh terhadap Performance Index)
Statistik uji yang digunakan dalam pengujian simultan adalah:
\[ F = \frac{MSR}{MSE} \]
Berdasarkan hasil estimasi diperoleh:
\[ F_{hitung} = 1.757 \times 10^{5} \]
dengan derajat kebebasan:
\[ df_1 = 5 \quad \text{dan} \quad df_2 = 9994 \]
Daerah kritis pada uji F dengan taraf signifikansi \(\alpha = 0.05\) adalah:
\[ \text{Tolak } H_0 \text{ jika } F_{hitung} > F_{(0.05;\,5,\,9994)} \text{ dan } \text{p-value} < \alpha \]
Pada taraf signifikansi \(\alpha = 0.05\), diperoleh bahwa p-value < \(2.2 \times 10^{-16}\), yang berarti p-value < \(\alpha\), sehingga \(H_0\) ditolak.
Dengan demikian, dapat disimpulkan bahwa secara simultan variabel Hours Studied, Previous Scores, Extracurricular Activities, Sleep Hours, dan Sample Question Papers Practiced berpengaruh signifikan terhadap Performance Index. Model regresi yang digunakan layak untuk menjelaskan variasi pada variabel dependen.
\[ H_0 : \beta_i = 0 \] (Variabel independen ke-i tidak berpengaruh terhadap Performance Index)
\[ H_1 : \beta_i \neq 0 \] (Variabel independen ke-i berpengaruh terhadap Performance Index)
dengan \(i = 1,2,3,4,5\).
\[ \alpha = 0.05 \]
\[ t = \frac{\hat{\beta_i}}{SE(\hat{\beta_i})} \]
dengan:
\(\hat{\beta_i}\) = estimasi
koefisien regresi ke-i
\(SE(\hat{\beta_i})\) = standar error koefisien regresi ke-i
Daerah Kritis
\[ \text{Tolak } H_0 \text{ jika } |t_{hitung}| > t_{(0.025;\,9994)} \; \text{dan} \; \text{p-value} < \alpha \]
Pada taraf signifikansi \(\alpha = 0.05\), diperoleh bahwa seluruh variabel independen memiliki p-value < \(2 \times 10^{-16}\), sehingga p-value < \(\alpha\) dan \(H_0\) ditolak untuk masing-masing variabel.
Dengan demikian, dapat disimpulkan bahwa secara parsial variabel Hours Studied, Previous Scores, Extracurricular Activities, Sleep Hours, dan Sample Question Papers Practiced berpengaruh signifikan terhadap Performance Index.
Berdasarkan hasil estimasi diperoleh nilai:
\[ R^2 = 0.9888 \]
dan
\[ Adjusted \; R^2 = 0.9887 \]
Nilai koefisien determinasi sebesar 0.9888 menunjukkan bahwa 98.88% variasi pada variabel Performance Index mampu diterangkan oleh variabel Hours Studied, Previous Scores, Extracurricular Activities, Sleep Hours, dan Sample Question Papers Practiced secara simultan.
Sementara itu, sebesar 1.12% variasi Performance Index dipengaruhi oleh faktor lain di luar model yang tidak dimasukkan dalam penelitian ini.
Nilai Adjusted \(R^2\) sebesar 0.9887 menunjukkan bahwa setelah memperhitungkan jumlah variabel independen yang digunakan, model tetap memiliki tingkat ketepatan yang sangat tinggi dalam merepresentasikan hubungan antar variabel.
Berdasarkan hasil pengujian yang telah dilakukan, seluruh asumsi klasik pada model telah terpenuhi dan seluruh variabel independen menunjukkan pengaruh yang signifikan secara statistik, baik secara simultan maupun parsial. Oleh karena itu, tidak dilakukan proses eliminasi variabel, sehingga model akhir yang digunakan dalam penelitian ini sama dengan model awal yaitu:
\[ \hat{Y} = -34.076 + 2.853X_1 + 1.018X_2 + 0.613D_1 + 0.481X_3 + 0.194X_4 \]
dengan:
Interpretasi dari masing-masing koefisien regresi adalah sebagai berikut:
Konstanta sebesar -34,076 menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka Indeks Performa Siswa diperkirakan sebesar -34,076. Namun, secara praktis nilai ini hanya berfungsi sebagai titik awal model dan tidak memiliki makna substantif karena kondisi seluruh variabel bernilai nol tidak realistis.
Koefisien Jam Belajar sebesar 2,853 menunjukkan bahwa setiap peningkatan satu jam belajar akan meningkatkan Indeks Performa Siswa sebesar 2,853 satuan, dengan asumsi variabel lain konstan.
Koefisien Nilai Sebelumnya sebesar 1,018 menunjukkan bahwa setiap kenaikan satu satuan nilai sebelumnya akan meningkatkan Indeks Performa Siswa sebesar 1,018 satuan, dengan asumsi variabel lain tetap.
Koefisien Kegiatan Ekstrakurikuler sebesar 0,613 menunjukkan bahwa siswa yang mengikuti kegiatan ekstrakurikuler memiliki Indeks Performa rata-rata 0,613 satuan lebih tinggi dibandingkan siswa yang tidak mengikuti, dengan asumsi variabel lain konstan.
Koefisien Jam Tidur sebesar 0,481 menunjukkan bahwa setiap tambahan satu jam tidur akan meningkatkan Indeks Performa Siswa sebesar 0,481 satuan, dengan asumsi variabel lain tetap.
Koefisien Jumlah Latihan Soal sebesar 0,194 menunjukkan bahwa setiap tambahan satu latihan soal yang dikerjakan akan meningkatkan Indeks Performa Siswa sebesar 0,194 satuan, dengan asumsi variabel lain konstan.
Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, maka diperoleh kesimpulan sebagai berikut:
Secara simultan, variabel Jam Belajar (Hours Studied), Nilai Sebelumnya (Previous Scores), Kegiatan Ekstrakurikuler (Extracurricular Activities), Jam Tidur (Sleep Hours), dan Jumlah Latihan Soal (Sample Question Papers Practiced) berpengaruh signifikan terhadap Indeks Performa Siswa. Hal ini dibuktikan oleh hasil uji F yang menunjukkan nilai \(F_{(5,9994)} = 1{,}757 \times 10^{5}\) dengan \(p\text{-value} < 2{,}2 \times 10^{-16}\), sehingga model regresi secara keseluruhan signifikan secara statistik.
Secara parsial, Jam Belajar (Hours Studied) berpengaruh positif dan signifikan terhadap Indeks Performa Siswa (\(p\text{-value} < 2 \times 10^{-16}\)). Koefisien regresi sebesar 2,853 menunjukkan bahwa setiap peningkatan satu jam belajar akan meningkatkan Indeks Performa Siswa sebesar 2,853 satuan, dengan asumsi variabel lain konstan.
Secara parsial, Nilai Sebelumnya (Previous Scores) berpengaruh positif dan signifikan terhadap Indeks Performa Siswa (\(p\text{-value} < 2 \times 10^{-16}\)). Koefisien sebesar 1,018 menunjukkan bahwa setiap kenaikan satu satuan nilai sebelumnya akan meningkatkan Indeks Performa Siswa sebesar 1,018 satuan.
Secara parsial, Kegiatan Ekstrakurikuler (Extracurricular Activities) berpengaruh positif dan signifikan terhadap Indeks Performa Siswa (\(p\text{-value} < 2 \times 10^{-16}\)). Siswa yang mengikuti kegiatan ekstrakurikuler memiliki Indeks Performa rata-rata lebih tinggi sebesar 0,613 satuan dibandingkan siswa yang tidak mengikuti, dengan asumsi variabel lain tetap.
Secara parsial, Jam Tidur (Sleep Hours) berpengaruh positif dan signifikan terhadap Indeks Performa Siswa (\(p\text{-value} < 2 \times 10^{-16}\)). Setiap tambahan satu jam tidur meningkatkan Indeks Performa sebesar 0,481 satuan.
Secara parsial, Jumlah Latihan Soal (Sample Question Papers Practiced) berpengaruh positif dan signifikan terhadap Indeks Performa Siswa (\(p\text{-value} < 2 \times 10^{-16}\)). Setiap tambahan satu latihan soal yang dikerjakan meningkatkan Indeks Performa sebesar 0,194 satuan.
Nilai koefisien determinasi (\(R^2\)) sebesar 0,9888 menunjukkan bahwa 98,88% variasi Indeks Performa Siswa dapat dijelaskan oleh kelima variabel independen dalam model. Sisanya sebesar 1,12% dijelaskan oleh faktor lain di luar model penelitian. Nilai Adjusted \(R^2\) sebesar 0,9887 menunjukkan bahwa model memiliki kemampuan penjelasan yang sangat kuat dan stabil.
Becker, G. S. (1964). Human capital: A theoretical and empirical analysis, with special reference to education. New York, NY: Columbia University Press.
Credé, M., Roch, S. G., & Kieszczynka, U. M. (2010). Study habits and academic achievement: A meta-analysis. Perspectives on Psychological Science, 5(4), 337–350. https://doi.org/10.1177/1745691610375556
Curcio, G., Ferrara, M., & De Gennaro, L. (2006). Sleep loss and learning capacity. Sleep Medicine Reviews, 10(5), 323–337. https://doi.org/10.1016/j.smrv.2005.11.001
Fredricks, J. A., & Eccles, J. S. (2006). Is extracurricular participation associated with beneficial outcomes? Concurrent and longitudinal relations. Developmental Psychology, 42(4), 698–713. https://doi.org/10.1037/0012-1649.42.4.698
Ghozali, I. (2016). Aplikasi analisis multivariate dengan program IBM SPSS 23. Semarang: Badan Penerbit Universitas Diponegoro.
Gujarati, D. N., & Porter, D. C. (2009). Basic econometrics (5th ed.). New York, NY: McGraw-Hill.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Upper Saddle River, NJ: Pearson Prentice Hall.
Santoso, S. (2015a). Menguasai statistik multivariat. Jakarta: Elex Media Komputindo.
Santoso, S. (2015b). Statistik untuk penelitian. Jakarta: Elex Media Komputindo.