Nama: Bazliah Amalina
NIM: 2450090501111032
Program Studi: Sarjana Statistika
Universitas: Universitas Brawijaya
Analisis dilakukan menggunakan software R dengan langkah sebagai berikut:
Model yang digunakan adalah regresi linier sederhana dengan:
- Y = Exam_Score
- X = Hours_Studied
Melakukan uji t untuk mengetahui signifikansi model regresi
Meliputi: - Uji normalitas residual - Uji homoskedastisitas - Uji autokorelasi
Statistika deskriptif adalah metode statistik yang digunakan untuk menggambarkan atau mendeskripsikan data sehingga lebih mudah dipahami. Analisis ini biasanya meliputi ukuran pemusatan data seperti mean, median, dan modus, serta ukuran penyebaran data seperti varians, standar deviasi, nilai minimum, dan maksimum. Statistika deskriptif bertujuan memberikan gambaran umum mengenai karakteristik data sebelum dilakukan analisis lebih lanjut.
Regresi linier sederhana merupakan metode statistik yang digunakan untuk mengetahui hubungan antara satu variabel bebas (X) dengan satu variabel terikat (Y). Model regresi linier sederhana dinyatakan dalam persamaan:
Model:
\[ Y = a + \beta X \]
Keterangan: - Y = variabel respon
- X = variabel prediktor
- a = konstanta
- β = koefisien regresi
Koefisien regresi menunjukkan besarnya perubahan variabel respon akibat perubahan variabel prediktor. Jika nilai koefisien regresi positif, maka hubungan kedua variabel bersifat searah, sedangkan jika negatif maka hubungan bersifat berlawanan arah. Analisis regresi linier sederhana banyak digunakan untuk prediksi dan mengetahui pengaruh suatu variabel terhadap variabel lainnya.
Scatter plot atau diagram pencar merupakan grafik yang digunakan
untuk menunjukkan hubungan antara dua variabel numerik. Setiap titik
pada grafik menunjukkan pasangan nilai dari variabel X dan variabel
Y.
Scatter plot digunakan untuk:
1. Mengetahui pola hubungan antar variabel.
2. Melihat arah hubungan variabel (positif atau negatif).
3. Mengidentifikasi adanya outlier.
4. Menentukan apakah hubungan data cenderung linear atau tidak.
Uji signifikansi regresi dilakukan untuk mengetahui apakah variabel bebas berpengaruh secara signifikan terhadap variabel terikat. Pada regresi linier sederhana, pengujian biasanya dilakukan menggunakan uji t terhadap koefisien regresi.
Uji normalitas residual bertujuan untuk mengetahui apakah residual pada model regresi berdistribusi normal. Residual adalah selisih antara nilai observasi dan nilai prediksi model. Salah satu metode yang umum digunakan adalah uji Shapiro-Wilk. Selain uji statistik, normalitas residual juga dapat dilihat menggunakan histogram dan QQ-plot.
Uji homoskedastisitas bertujuan mengetahui apakah varians residual bersifat konstan pada seluruh nilai prediksi. Jika varians residual tidak konstan, maka terjadi heteroskedastisitas.
Model regresi yang baik harus memenuhi asumsi homoskedastisitas. Pengujian dapat dilakukan menggunakan uji Breusch-Pagan.
Uji linearitas digunakan untuk mengetahui apakah hubungan antara
variabel bebas dan variabel terikat bersifat linear. Regresi linier
mensyaratkan hubungan linear antar variabel.
Linearitas dapat diperiksa melalui scatter plot atau menggunakan uji
statistik seperti ANOVA lack-of-fit test. Jika hubungan data membentuk
pola mendekati garis lurus, maka asumsi linearitas dapat dikatakan
terpenuhi.
Uji independensi residual bertujuan mengetahui apakah residual saling bebas atau tidak terjadi autokorelasi. Autokorelasi sering muncul pada data runtun waktu (time series).Salah satu metode yang digunakan adalah uji Durbin-Watson.
Hours_Studied <- c(
23,19,24,29,19,19,29,25,17,23,
17,27,21,14,21,28,20,13,16,28,
12,15,10,29,10,23,26,15,12,18,
17,16,17,30,14,27,12,21,20,11)
Exam_Score <- c(
67,61,74,71,70,71,74,71,67,72,
68,73,70,66,71,71,72,65,67,72,
66,61,65,73,66,62,73,62,61,66,
67,68,69,68,63,73,60,63,70,62)
Data <- data.frame(Hours_Studied, Exam_Score)
Data## Hours_Studied Exam_Score
## 1 23 67
## 2 19 61
## 3 24 74
## 4 29 71
## 5 19 70
## 6 19 71
## 7 29 74
## 8 25 71
## 9 17 67
## 10 23 72
## 11 17 68
## 12 27 73
## 13 21 70
## 14 14 66
## 15 21 71
## 16 28 71
## 17 20 72
## 18 13 65
## 19 16 67
## 20 28 72
## 21 12 66
## 22 15 61
## 23 10 65
## 24 29 73
## 25 10 66
## 26 23 62
## 27 26 73
## 28 15 62
## 29 12 61
## 30 18 66
## 31 17 67
## 32 16 68
## 33 17 69
## 34 30 68
## 35 14 63
## 36 27 73
## 37 12 60
## 38 21 63
## 39 20 70
## 40 11 62
## Hours_Studied Exam_Score
## Min. :10.00 Min. :60.00
## 1st Qu.:15.00 1st Qu.:65.00
## Median :19.00 Median :68.00
## Mean :19.68 Mean :67.78
## 3rd Qu.:24.25 3rd Qu.:71.00
## Max. :30.00 Max. :74.00
plot(Data$Hours_Studied, Data$Exam_Score,
main = "Scatter Plot Hours Studied vs Exam Score",
xlab = "Hours Studied",
ylab = "Exam Score",
pch = 19)##
## Call:
## lm(formula = Exam_Score ~ Hours_Studied, data = Data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.4248 -1.5928 0.8195 2.0523 4.0790
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 58.01265 1.64883 35.184 < 2e-16 ***
## Hours_Studied 0.49618 0.08028 6.181 3.22e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.994 on 38 degrees of freedom
## Multiple R-squared: 0.5013, Adjusted R-squared: 0.4882
## F-statistic: 38.2 on 1 and 38 DF, p-value: 3.215e-07
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.91133, p-value = 0.004155
Data yang digunakan dalam laporan ini merupakan data performa siswa yang memuat berbagai informasi terkait faktor-faktor yang memengaruhi hasil belajar. Dari data tersebut dipilih dua variabel prediktor, yaitu Hours Studied (jumlah jam belajar) dan Attendance (tingkat kehadiran siswa), serta satu variabel respon yaitu Exam Score (nilai ujian). Pemilihan variabel ini didasarkan pada pertimbangan bahwa waktu belajar dan kehadiran di kelas merupakan faktor utama yang secara umum berpengaruh terhadap pencapaian akademik siswa, sehingga ketiganya dianggap representatif untuk menggambarkan hubungan antara kebiasaan belajar dan hasil ujian.
Dalam analisis ini digunakan metode regresi linear berganda untuk mengetahui pengaruh masing-masing variabel prediktor terhadap variabel respon serta membentuk model matematis yang menjelaskan hubungan tersebut. Selain itu, dilakukan pengujian signifikansi model dan variabel, serta uji asumsi klasik yang meliputi uji normalitas residual, homoskedastisitas, multikolinearitas, dan autokorelasi untuk memastikan bahwa model yang dihasilkan memenuhi kriteria statistik dan layak untuk diinterpretasikan.
Berdasarkan hasil analisis statistik deskriptif menggunakan fungsi summary(), diperoleh gambaran umum dari masing-masing variabel yaitu Hours Studied, Attendance, dan Exam Score. Pada variabel Hours Studied, nilai minimum sebesar 10 dan maksimum sebesar 30. Rata-rata jam belajar siswa adalah 19,68 jam dengan median 19 jam, yang menunjukkan bahwa sebaran data cukup simetris di sekitar nilai tengah.
Pada variabel Attendance, nilai kehadiran siswa berada pada rentang 64 hingga 99 dengan rata-rata sebesar 83,2. Nilai median sebesar 84 juga menunjukkan bahwa tingkat kehadiran siswa cenderung cukup tinggi dan relatif merata. Sementara itu, pada variabel Exam Score, nilai ujian siswa berkisar antara 60 hingga 74 dengan rata-rata sebesar 67,78. Nilai median sebesar 68 menunjukkan bahwa distribusi nilai ujian juga relatif stabil tanpa perbedaan yang terlalu ekstrem.
Secara umum, hasil statistik deskriptif ini menunjukkan bahwa data memiliki sebaran yang cukup wajar dan tidak terdapat nilai yang terlalu ekstrem, sehingga data layak untuk digunakan pada analisis regresi linear berganda.
Dari kedua scatter plot terlihat hubungan awal yang cenderung positif antara variabel prediktor dengan Exam Score. Pada Hours Studied, hubungan terlihat lebih jelas, semakin lama waktu belajar, nilai ujian cenderung meningkat. Sementara pada Attendance, hubungan juga positif tetapi sedikit lebih menyebar, sehingga pengaruhnya terlihat tidak sekuat jam belajar.
Koefisien dalam model regresi menunjukkan arah dan besarnya pengaruh masing-masing variabel prediktor terhadap variabel respon.
Berdasarkan hasil uji t, didapatkan bahwa baik Hours Studied maupun Attendance secara parsial memiliki pengaruh yang signifikan terhadap Exam Score. Dengan demikian, kedua variabel tersebut layak dimasukkan dalam model regresi karena memberikan kontribusi dalam menjelaskan variasi nilai ujian siswa.
Berdasarkan hasil uji normalitas residual menggunakan Shapiro-Wilk, diperoleh nilai p-value > 0,05 sehingga dapat disimpulkan bahwa residual berdistribusi normal. Hal ini juga didukung oleh hasil Normal Q-Q Plot yang menunjukkan titik-titik residual mengikuti garis diagonal, sehingga asumsi normalitas dalam model regresi dapat dikatakan terpenuhi.
Pada Hasil uji homoskedastisitas menunjukkan bahwa penyebaran residual terhadap nilai prediksi bersifat acak dan tidak membentuk pola tertentu, sehingga tidak terdapat gejala heteroskedastisitas.
Untuk uji multikolinearitas, nilai VIF pada variabel independen berada di bawah 10 sehingga tidak terjadi masalah multikolinearitas.
Hasil uji autokorelasi menggunakan Durbin-Watson menunjukkan tidak adanya indikasi autokorelasi pada residual.
Secara keseluruhan, seluruh asumsi klasik regresi telah terpenuhi sehingga model yang digunakan dapat dikatakan layak dan memenuhi kriteria BLUE.
Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, diperoleh bahwa variabel Hours Studied dan Attendance memiliki pengaruh positif terhadap Exam Score. Semakin tinggi jam belajar dan tingkat kehadiran siswa, maka nilai ujian yang diperoleh cenderung meningkat.
Hasil uji signifikansi menunjukkan bahwa kedua variabel independen berpengaruh signifikan terhadap nilai ujian karena memiliki p-value kurang dari 0,05. Selain itu, hasil pengujian asumsi regresi menunjukkan bahwa model telah memenuhi asumsi normalitas, homoskedastisitas, tidak terjadi multikolinearitas, serta tidak terdapat autokorelasi pada residual.
Dengan terpenuhinya asumsi-asumsi regresi tersebut, model yang diperoleh dapat digunakan dengan baik untuk menjelaskan hubungan antara jam belajar dan tingkat kehadiran terhadap hasil ujian siswa. Secara keseluruhan, dapat disimpulkan bahwa kebiasaan belajar dan kehadiran di kelas merupakan faktor yang berperan dalam meningkatkan performa akademik siswa.
Lainguyn123. (n.d.). Student performance factors [Data set]. Kaggle. Diakses pada 27 Mei 2026, dari https://www.kaggle.com/datasets/lainguyn123/student-performance-factors
Sari, A. Q., Sukestiyarno, Y. L., & Agoestanto, A. (2018). Batasan prasyarat uji normalitas dan uji homogenitas pada model regresi linear. Unnes Journal of Mathematics, 6(2).
Pujilestari, S., Dwidayati, N., & Sugiman. (2017). Pemilihan model regresi linier berganda terbaik pada kasus multikolinieritas berdasarkan metode PCA dan stepwise. Unnes Journal of Mathematics, 6(1).