24050123140191
Kinerja akademik siswa merupakan salah satu indikator penting dalam menilai keberhasilan proses pembelajaran. Tingkat pencapaian akademik siswa sering dijadikan sebagai ukuran untuk melihat sejauh mana proses pendidikan mampu meningkatkan kemampuan dan pengetahuan siswa. Dalam proses pembelajaran, terdapat berbagai faktor yang dapat mempengaruhi kinerja akademik siswa, baik yang berasal dari dalam diri siswa maupun dari lingkungan sekitarnya. Faktor-faktor tersebut dapat berupa kebiasaan belajar, kemampuan akademik sebelumnya, waktu yang dialokasikan untuk kegiatan belajar, serta berbagai aktivitas lain yang dilakukan oleh siswa.
Memahami faktor-faktor yang mempengaruhi kinerja akademik menjadi hal yang penting karena dapat memberikan gambaran mengenai pola belajar siswa serta faktor yang berkontribusi terhadap peningkatan prestasi akademik. Dengan melakukan analisis terhadap data yang berkaitan dengan aktivitas belajar dan hasil akademik siswa, dapat diperoleh informasi yang bermanfaat untuk mengetahui hubungan antar faktor yang mempengaruhi kinerja akademik.
Pada analisis ini digunakan Student Performance Dataset yang bersumber dari platform Kaggle. Dataset tersebut bertujuan untuk menganalisis faktor-faktor yang mempengaruhi kinerja akademik siswa dan terdiri dari 10.000 data siswa. Data ini memuat beberapa informasi yang berkaitan dengan aktivitas belajar dan performa akademik siswa sehingga dapat digunakan untuk melakukan analisis statistik guna mengetahui hubungan antar faktor yang mempengaruhi kinerja akademik siswa. Melalui analisis statistik yang dilakukan, diharapkan dapat diperoleh gambaran mengenai faktor-faktor yang berperan dalam mempengaruhi tingkat kinerja akademik siswa.
Tujuan dari analisis ini adalah untuk mengetahui hubungan serta pengaruh beberapa faktor terhadap kinerja akademik siswa menggunakan metode analisis regresi. Melalui analisis ini diharapkan dapat diperoleh informasi mengenai faktor-faktor yang berkontribusi terhadap tingkat performa akademik siswa berdasarkan data yang tersedia.
Terdapat data Student Performance Dataset yang bersumber dari kaggle yang bertujuan untuk menganalisis faktor-faktor yang mempengaruhi kinerja akademik siswa. Dataset terdiri dari 10.000 data siswa.
Link Dataset: https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression
library(lmtest)
library(car)
Pada tahap ini dilakukan proses import data ke dalam perangkat lunak R untuk keperluan analisis. Data yang digunakan adalah Student Performance Dataset yang tersimpan dalam format CSV. Proses import data dilakukan menggunakan fungsi read.csv() untuk membaca file data dan menyimpannya ke dalam objek yang akan digunakan pada tahap analisis selanjutnya.
Student_Performance <- read.csv("C:\\Users\\Lenovo\\Downloads\\Student_Performance.csv")
# Melihat struktur data
str(Student_Performance)
## 'data.frame': 10000 obs. of 6 variables:
## $ Hours.Studied : int 7 4 8 5 7 3 7 8 5 4 ...
## $ Previous.Scores : int 99 82 51 52 75 78 73 45 77 89 ...
## $ Extracurricular.Activities : chr "Yes" "No" "Yes" "Yes" ...
## $ Sleep.Hours : int 9 4 7 5 8 9 5 4 8 4 ...
## $ Sample.Question.Papers.Practiced: int 1 2 2 2 5 6 6 6 2 0 ...
## $ Performance.Index : num 91 65 45 36 66 61 63 42 61 69 ...
head(Student_Performance)
## Hours.Studied Previous.Scores Extracurricular.Activities Sleep.Hours
## 1 7 99 Yes 9
## 2 4 82 No 4
## 3 8 51 Yes 7
## 4 5 52 Yes 5
## 5 7 75 No 8
## 6 3 78 No 9
## Sample.Question.Papers.Practiced Performance.Index
## 1 1 91
## 2 2 65
## 3 2 45
## 4 2 36
## 5 5 66
## 6 6 61
Berdasarkan hasil import data, diperoleh dataset dengan jumlah 10.000 observasi dan 6 variabel. Variabel yang terdapat dalam dataset tersebut antara lain Hours Studied, Previous Scores, Extracurricular Activities, Sleep Hours, Sample Question Papers Practiced, dan Performance Index. Digunakan Performance Index sebagai varibel dependen (Y). Hours studied (X1) dan Previous Score (X2) sebagai variabel Dependen.
summary(Student_Performance)
## Hours.Studied Previous.Scores Extracurricular.Activities Sleep.Hours
## Min. :1.000 Min. :40.00 Length:10000 Min. :4.000
## 1st Qu.:3.000 1st Qu.:54.00 Class :character 1st Qu.:5.000
## Median :5.000 Median :69.00 Mode :character Median :7.000
## Mean :4.993 Mean :69.45 Mean :6.531
## 3rd Qu.:7.000 3rd Qu.:85.00 3rd Qu.:8.000
## Max. :9.000 Max. :99.00 Max. :9.000
## Sample.Question.Papers.Practiced Performance.Index
## Min. :0.000 Min. : 10.00
## 1st Qu.:2.000 1st Qu.: 40.00
## Median :5.000 Median : 55.00
## Mean :4.583 Mean : 55.22
## 3rd Qu.:7.000 3rd Qu.: 71.00
## Max. :9.000 Max. :100.00
Berdasarkan hasil statistik deskriptif dari data Student Performance Dataset yang berjumlah 10.000 observasi, diperoleh gambaran umum mengenai karakteristik setiap variabel. Variabel Hours Studied memiliki nilai minimum sebesar 1 jam dan maksimum 9 jam, dengan rata-rata sebesar 4,993 jam serta median 5 jam. Variabel Previous Scores memiliki nilai minimum 40 dan maksimum 99 dengan rata-rata sebesar 69,45. Selanjutnya, variabel Sleep Hours memiliki nilai minimum 4 jam dan maksimum 9 jam dengan rata-rata sebesar 6,531 jam. Variabel Sample Question Papers Practiced memiliki nilai minimum 0 dan maksimum 9 dengan rata-rata sebesar 4,583. Sementara itu, variabel Performance Index memiliki nilai minimum 10 dan maksimum 100 dengan rata-rata sebesar 55,22 serta median 55. Selain itu, variabel Extracurricular Activities bertipe data karakter dengan jumlah observasi sebanyak 10.000. Statistik deskriptif ini memberikan gambaran awal mengenai distribusi dan kecenderungan nilai pada setiap variabel dalam dataset.
Pada tahap ini dilakukan analisis regresi linear berganda untuk mengetahui pengaruh beberapa variabel independen terhadap variabel dependen. Metode regresi linear berganda digunakan untuk melihat hubungan antara variabel dependen dengan lebih dari satu variabel independen secara simultan. Model regresi yang digunakan dalam analisis ini bertujuan untuk mengetahui seberapa besar pengaruh faktor-faktor yang diteliti terhadap Performance Index siswa. Estimasi model dilakukan menggunakan fungsi lm() pada perangkat lunak R.
Persamaan Model Regresi: \[ y= \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon \]
model=lm(Performance.Index~Hours.Studied+Previous.Scores, data=Student_Performance)
summary(model)
##
## Call:
## lm(formula = Performance.Index ~ Hours.Studied + Previous.Scores,
## data = Student_Performance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.4105 -1.5284 -0.0023 1.5230 9.1603
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -29.816790 0.104529 -285.2 <2e-16 ***
## Hours.Studied 2.857637 0.008821 323.9 <2e-16 ***
## Previous.Scores 1.019123 0.001317 773.8 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.284 on 9997 degrees of freedom
## Multiple R-squared: 0.9859, Adjusted R-squared: 0.9859
## F-statistic: 3.488e+05 on 2 and 9997 DF, p-value: < 2.2e-16
Uji t
Hipotesis
\(H_0\) = Variabel independen tidak berpengaruh signifikan terhadap Performance Index.
\(H_1\) = Variabel independen berpengaruh signifikan terhadap Performance Index.
Daerah Penolakan
Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)
Kesimpulan
Berdasarkan hasil output regresi diperoleh nilai p-value untuk Hours Studied < 2e-16 dan p-value untuk Previous Scores < 2e-16. Karena kedua nilai p-value lebih kecil dari 0,05 maka \(H_0\) ditolak. Hal ini menunjukkan bahwa Hours Studied dan Previous Scores berpengaruh signifikan secara parsial terhadap Performance Index.
Uji F
Hipotesis
\(H_0\) = Tidak ada hubungan linier antara variabel dependen dan semua variabel independen.
\(H_1\) = Ada hubungan linier antara variabel dependen dan semua variabel independen.
Daerah Penolakan
Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)
Kesimpulan
Berdasarkan output regresi diperoleh nilai F-statistic sebesar 3.488
× 10⁵ dengan p-value < 2.2e-16. Karena nilai p-value lebih kecil dari
0,05 maka \(H_0\) ditolak. Hal ini
menunjukkan bahwa ada hubungan linier antara variabel dependen dan semua
variabel independen.
Model Akhir: \[ y = -29.817 + 2.858x_1 + 1.019x_2 \]
Interpretasi Model Akhir:
Konstanta (-29.817) menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Performance Index diperkirakan sebesar -29.817.
Koefisien Hours Studied (2.858) menunjukkan bahwa setiap penambahan 1 jam waktu belajar, dengan asumsi variabel lain konstan, maka Performance Index akan meningkat sebesar 2.858 poin.
Koefisien Previous Scores (1.019) menunjukkan bahwa setiap kenaikan 1 poin nilai sebelumnya, dengan asumsi variabel lain konstan, maka Performance Index akan meningkat sebesar 1.019 poin.
Hipotesis
\(H_0\) = Residual Data Berdistribusi Normal
\(H_1\) = Residual Data tidak Berdistribusi Normal
Daerah Penolakan
Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)
#Uji Normalitas Residual
error = model$residuals
ks.test(error, "pnorm", mean(error), sqrt(var(error)))
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: error
## D = 0.0056401, p-value = 0.9081
## alternative hypothesis: two-sided
Berdasarkan Kolmogorov-Smirnov Test didapatkan P-Value = 0,9081. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, Uji normalitas residual terpenuhi.
Hipotesis
\(H_0\) = Tidak terajadi multikolinieritas antar variabel independen
\(H_1\) = Terjadi multikolinieritas antar variabel independen
Daerah Penolakan
Tolak \(H_0\) jika nilai VIF > 10
library(car)
vif(model)
## Hours.Studied Previous.Scores
## 1.000154 1.000154
Didapatkan nilai vif =1,000154. Karena nilai vif < 10 maka gagal menolak \(H_0\). Sehingga asumsi multikolinieritas terpenuhi.
Hipotesis
\(H_0\) = Varians residual bersifat homoskedastisitas
\(H_1\) = Varians residual bersifat heteroskedastistas
Daerah Penolakan
Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.23156, df = 2, p-value = 0.8907
Berdasarkan Breush-Pagan Test didapatkan P-Value = 0,8907. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, varians residual bersifat homoskedastisitas.
Hipotesis
\(H_0\) = Tidak terdapat autokorelasi pada residual
\(H_1\) = Terdapat autokorelasi pada residual
Daerah Penolakan
Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 1.9922, p-value = 0.3491
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan Durbin-Watson Test didapatkan P-Value = 0,3491. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, tidak terdeteksi autokorelasi pada model.
par(mfrow = c(2,2))
plot(model)
Pada grafik Residuals vs Fitted, terlihat bahwa titik-titik residual menyebar secara acak di sekitar garis horizontal tanpa membentuk pola tertentu. Hal ini menunjukkan bahwa model regresi yang digunakan cukup baik dan tidak menunjukkan adanya pola ketidaksesuaian model yang signifikan. Asumsi Linieritas terpenuhi.
Pada grafik Normal Q-Q, sebagian besar titik residual berada di sekitar garis diagonal, yang menunjukkan bahwa distribusi residual mendekati distribusi normal. Hal ini mengindikasikan bahwa asumsi normalitas pada model regresi telah terpenuhi dengan cukup baik.
Pada grafik Scale-Location, titik-titik residual tampak tersebar secara relatif merata di sepanjang nilai fitted tanpa membentuk pola tertentu. Hal ini menunjukkan bahwa varians residual cenderung konstan sehingga asumsi homoskedastisitas pada model regresi dapat terpenuhi.
Pada grafik Residuals vs Leverage, tidak terlihat adanya titik observasi yang memiliki nilai leverage yang sangat tinggi atau yang berada di luar batas Cook’s distance. Hal ini menunjukkan bahwa tidak terdapat observasi yang memiliki pengaruh yang sangat besar terhadap model regresi.
Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, diperoleh model regresi yang menunjukkan hubungan antara faktor-faktor yang dianalisis dengan Performance Index siswa. Hasil uji parsial (uji t) menunjukkan bahwa variabel Hours Studied dan Previous Scores memiliki pengaruh yang signifikan terhadap Performance Index. Selain itu, hasil uji simultan (uji F) menunjukkan bahwa kedua variabel independen tersebut secara bersama-sama berpengaruh signifikan terhadap Performance Index.
Nilai koefisien determinasi sebesar 0,9859 menunjukkan bahwa sekitar 98,59% variasi Performance Index dapat dijelaskan oleh variabel yang digunakan dalam model, sedangkan sisanya dijelaskan oleh faktor lain di luar model penelitian. Berdasarkan hasil uji asumsi klasik dan analisis plot diagnostik, model regresi yang diperoleh juga telah memenuhi asumsi dasar regresi.