24050123140191

1. Pendahuluan

1.1 Latar Belakang

Kinerja akademik siswa merupakan salah satu indikator penting dalam menilai keberhasilan proses pembelajaran. Tingkat pencapaian akademik siswa sering dijadikan sebagai ukuran untuk melihat sejauh mana proses pendidikan mampu meningkatkan kemampuan dan pengetahuan siswa. Dalam proses pembelajaran, terdapat berbagai faktor yang dapat mempengaruhi kinerja akademik siswa, baik yang berasal dari dalam diri siswa maupun dari lingkungan sekitarnya. Faktor-faktor tersebut dapat berupa kebiasaan belajar, kemampuan akademik sebelumnya, waktu yang dialokasikan untuk kegiatan belajar, serta berbagai aktivitas lain yang dilakukan oleh siswa.

Memahami faktor-faktor yang mempengaruhi kinerja akademik menjadi hal yang penting karena dapat memberikan gambaran mengenai pola belajar siswa serta faktor yang berkontribusi terhadap peningkatan prestasi akademik. Dengan melakukan analisis terhadap data yang berkaitan dengan aktivitas belajar dan hasil akademik siswa, dapat diperoleh informasi yang bermanfaat untuk mengetahui hubungan antar faktor yang mempengaruhi kinerja akademik.

Pada analisis ini digunakan Student Performance Dataset yang bersumber dari platform Kaggle. Dataset tersebut bertujuan untuk menganalisis faktor-faktor yang mempengaruhi kinerja akademik siswa dan terdiri dari 10.000 data siswa. Data ini memuat beberapa informasi yang berkaitan dengan aktivitas belajar dan performa akademik siswa sehingga dapat digunakan untuk melakukan analisis statistik guna mengetahui hubungan antar faktor yang mempengaruhi kinerja akademik siswa. Melalui analisis statistik yang dilakukan, diharapkan dapat diperoleh gambaran mengenai faktor-faktor yang berperan dalam mempengaruhi tingkat kinerja akademik siswa.

1.2 Tujuan Analisis

Tujuan dari analisis ini adalah untuk mengetahui hubungan serta pengaruh beberapa faktor terhadap kinerja akademik siswa menggunakan metode analisis regresi. Melalui analisis ini diharapkan dapat diperoleh informasi mengenai faktor-faktor yang berkontribusi terhadap tingkat performa akademik siswa berdasarkan data yang tersedia.

2. Deskripsi Data

2.1 Sumber Data

Terdapat data Student Performance Dataset yang bersumber dari kaggle yang bertujuan untuk menganalisis faktor-faktor yang mempengaruhi kinerja akademik siswa. Dataset terdiri dari 10.000 data siswa.

Link Dataset: https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression

library(lmtest)
library(car)

2.2 Import Data

Pada tahap ini dilakukan proses import data ke dalam perangkat lunak R untuk keperluan analisis. Data yang digunakan adalah Student Performance Dataset yang tersimpan dalam format CSV. Proses import data dilakukan menggunakan fungsi read.csv() untuk membaca file data dan menyimpannya ke dalam objek yang akan digunakan pada tahap analisis selanjutnya.

Student_Performance <- read.csv("C:\\Users\\Lenovo\\Downloads\\Student_Performance.csv")

# Melihat struktur data
str(Student_Performance)
## 'data.frame':    10000 obs. of  6 variables:
##  $ Hours.Studied                   : int  7 4 8 5 7 3 7 8 5 4 ...
##  $ Previous.Scores                 : int  99 82 51 52 75 78 73 45 77 89 ...
##  $ Extracurricular.Activities      : chr  "Yes" "No" "Yes" "Yes" ...
##  $ Sleep.Hours                     : int  9 4 7 5 8 9 5 4 8 4 ...
##  $ Sample.Question.Papers.Practiced: int  1 2 2 2 5 6 6 6 2 0 ...
##  $ Performance.Index               : num  91 65 45 36 66 61 63 42 61 69 ...
head(Student_Performance)
##   Hours.Studied Previous.Scores Extracurricular.Activities Sleep.Hours
## 1             7              99                        Yes           9
## 2             4              82                         No           4
## 3             8              51                        Yes           7
## 4             5              52                        Yes           5
## 5             7              75                         No           8
## 6             3              78                         No           9
##   Sample.Question.Papers.Practiced Performance.Index
## 1                                1                91
## 2                                2                65
## 3                                2                45
## 4                                2                36
## 5                                5                66
## 6                                6                61

Berdasarkan hasil import data, diperoleh dataset dengan jumlah 10.000 observasi dan 6 variabel. Variabel yang terdapat dalam dataset tersebut antara lain Hours Studied, Previous Scores, Extracurricular Activities, Sleep Hours, Sample Question Papers Practiced, dan Performance Index. Digunakan Performance Index sebagai varibel dependen (Y). Hours studied (X1) dan Previous Score (X2) sebagai variabel Dependen.

3. Analisis Data

3.1 Statistik Deskriptif

summary(Student_Performance)
##  Hours.Studied   Previous.Scores Extracurricular.Activities  Sleep.Hours   
##  Min.   :1.000   Min.   :40.00   Length:10000               Min.   :4.000  
##  1st Qu.:3.000   1st Qu.:54.00   Class :character           1st Qu.:5.000  
##  Median :5.000   Median :69.00   Mode  :character           Median :7.000  
##  Mean   :4.993   Mean   :69.45                              Mean   :6.531  
##  3rd Qu.:7.000   3rd Qu.:85.00                              3rd Qu.:8.000  
##  Max.   :9.000   Max.   :99.00                              Max.   :9.000  
##  Sample.Question.Papers.Practiced Performance.Index
##  Min.   :0.000                    Min.   : 10.00   
##  1st Qu.:2.000                    1st Qu.: 40.00   
##  Median :5.000                    Median : 55.00   
##  Mean   :4.583                    Mean   : 55.22   
##  3rd Qu.:7.000                    3rd Qu.: 71.00   
##  Max.   :9.000                    Max.   :100.00

Berdasarkan hasil statistik deskriptif dari data Student Performance Dataset yang berjumlah 10.000 observasi, diperoleh gambaran umum mengenai karakteristik setiap variabel. Variabel Hours Studied memiliki nilai minimum sebesar 1 jam dan maksimum 9 jam, dengan rata-rata sebesar 4,993 jam serta median 5 jam. Variabel Previous Scores memiliki nilai minimum 40 dan maksimum 99 dengan rata-rata sebesar 69,45. Selanjutnya, variabel Sleep Hours memiliki nilai minimum 4 jam dan maksimum 9 jam dengan rata-rata sebesar 6,531 jam. Variabel Sample Question Papers Practiced memiliki nilai minimum 0 dan maksimum 9 dengan rata-rata sebesar 4,583. Sementara itu, variabel Performance Index memiliki nilai minimum 10 dan maksimum 100 dengan rata-rata sebesar 55,22 serta median 55. Selain itu, variabel Extracurricular Activities bertipe data karakter dengan jumlah observasi sebanyak 10.000. Statistik deskriptif ini memberikan gambaran awal mengenai distribusi dan kecenderungan nilai pada setiap variabel dalam dataset.

3.2 Model Regresi Berganda

Pada tahap ini dilakukan analisis regresi linear berganda untuk mengetahui pengaruh beberapa variabel independen terhadap variabel dependen. Metode regresi linear berganda digunakan untuk melihat hubungan antara variabel dependen dengan lebih dari satu variabel independen secara simultan. Model regresi yang digunakan dalam analisis ini bertujuan untuk mengetahui seberapa besar pengaruh faktor-faktor yang diteliti terhadap Performance Index siswa. Estimasi model dilakukan menggunakan fungsi lm() pada perangkat lunak R.

Persamaan Model Regresi: \[ y= \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon \]

model=lm(Performance.Index~Hours.Studied+Previous.Scores, data=Student_Performance)
summary(model)
## 
## Call:
## lm(formula = Performance.Index ~ Hours.Studied + Previous.Scores, 
##     data = Student_Performance)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.4105 -1.5284 -0.0023  1.5230  9.1603 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -29.816790   0.104529  -285.2   <2e-16 ***
## Hours.Studied     2.857637   0.008821   323.9   <2e-16 ***
## Previous.Scores   1.019123   0.001317   773.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.284 on 9997 degrees of freedom
## Multiple R-squared:  0.9859, Adjusted R-squared:  0.9859 
## F-statistic: 3.488e+05 on 2 and 9997 DF,  p-value: < 2.2e-16

Uji t

Hipotesis

\(H_0\) = Variabel independen tidak berpengaruh signifikan terhadap Performance Index.

\(H_1\) = Variabel independen berpengaruh signifikan terhadap Performance Index.

Daerah Penolakan

Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)

Kesimpulan

Berdasarkan hasil output regresi diperoleh nilai p-value untuk Hours Studied < 2e-16 dan p-value untuk Previous Scores < 2e-16. Karena kedua nilai p-value lebih kecil dari 0,05 maka \(H_0\) ditolak. Hal ini menunjukkan bahwa Hours Studied dan Previous Scores berpengaruh signifikan secara parsial terhadap Performance Index.

Uji F

Hipotesis

\(H_0\) = Tidak ada hubungan linier antara variabel dependen dan semua variabel independen.

\(H_1\) = Ada hubungan linier antara variabel dependen dan semua variabel independen.

Daerah Penolakan

Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)

Kesimpulan

Berdasarkan output regresi diperoleh nilai F-statistic sebesar 3.488 × 10⁵ dengan p-value < 2.2e-16. Karena nilai p-value lebih kecil dari 0,05 maka \(H_0\) ditolak. Hal ini menunjukkan bahwa ada hubungan linier antara variabel dependen dan semua variabel independen.

Model Akhir: \[ y = -29.817 + 2.858x_1 + 1.019x_2 \]

Interpretasi Model Akhir:

  1. Konstanta (-29.817) menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Performance Index diperkirakan sebesar -29.817.

  2. Koefisien Hours Studied (2.858) menunjukkan bahwa setiap penambahan 1 jam waktu belajar, dengan asumsi variabel lain konstan, maka Performance Index akan meningkat sebesar 2.858 poin.

  3. Koefisien Previous Scores (1.019) menunjukkan bahwa setiap kenaikan 1 poin nilai sebelumnya, dengan asumsi variabel lain konstan, maka Performance Index akan meningkat sebesar 1.019 poin.

4 Uji Asumsi Klasik

4.1 Uji Normalitas Residual

Hipotesis

\(H_0\) = Residual Data Berdistribusi Normal

\(H_1\) = Residual Data tidak Berdistribusi Normal

Daerah Penolakan

Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)

#Uji Normalitas Residual
error = model$residuals
ks.test(error, "pnorm", mean(error), sqrt(var(error)))
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  error
## D = 0.0056401, p-value = 0.9081
## alternative hypothesis: two-sided

Berdasarkan Kolmogorov-Smirnov Test didapatkan P-Value = 0,9081. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, Uji normalitas residual terpenuhi.

4.2 Uji Multikolinieritas

Hipotesis

\(H_0\) = Tidak terajadi multikolinieritas antar variabel independen

\(H_1\) = Terjadi multikolinieritas antar variabel independen

Daerah Penolakan

Tolak \(H_0\) jika nilai VIF > 10

library(car)
vif(model)
##   Hours.Studied Previous.Scores 
##        1.000154        1.000154

Didapatkan nilai vif =1,000154. Karena nilai vif < 10 maka gagal menolak \(H_0\). Sehingga asumsi multikolinieritas terpenuhi.

4.3 Uji Heteroskedastisitas

Hipotesis

\(H_0\) = Varians residual bersifat homoskedastisitas

\(H_1\) = Varians residual bersifat heteroskedastistas

Daerah Penolakan

Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)

bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.23156, df = 2, p-value = 0.8907

Berdasarkan Breush-Pagan Test didapatkan P-Value = 0,8907. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, varians residual bersifat homoskedastisitas.

4.4 Uji Autokorelasi

Hipotesis

\(H_0\) = Tidak terdapat autokorelasi pada residual

\(H_1\) = Terdapat autokorelasi pada residual

Daerah Penolakan

Tolak \(H_0\) jika P-Value < \(\alpha\) (0,05)

dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.9922, p-value = 0.3491
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan Durbin-Watson Test didapatkan P-Value = 0,3491. Karena P-Value > 0.05 maka gagal menolak \(H_0\). Dengan taraf signifikansi 5%, tidak terdeteksi autokorelasi pada model.

5. Plot

par(mfrow = c(2,2))
plot(model)

  1. Pada grafik Residuals vs Fitted, terlihat bahwa titik-titik residual menyebar secara acak di sekitar garis horizontal tanpa membentuk pola tertentu. Hal ini menunjukkan bahwa model regresi yang digunakan cukup baik dan tidak menunjukkan adanya pola ketidaksesuaian model yang signifikan. Asumsi Linieritas terpenuhi.

  2. Pada grafik Normal Q-Q, sebagian besar titik residual berada di sekitar garis diagonal, yang menunjukkan bahwa distribusi residual mendekati distribusi normal. Hal ini mengindikasikan bahwa asumsi normalitas pada model regresi telah terpenuhi dengan cukup baik.

  3. Pada grafik Scale-Location, titik-titik residual tampak tersebar secara relatif merata di sepanjang nilai fitted tanpa membentuk pola tertentu. Hal ini menunjukkan bahwa varians residual cenderung konstan sehingga asumsi homoskedastisitas pada model regresi dapat terpenuhi.

  4. Pada grafik Residuals vs Leverage, tidak terlihat adanya titik observasi yang memiliki nilai leverage yang sangat tinggi atau yang berada di luar batas Cook’s distance. Hal ini menunjukkan bahwa tidak terdapat observasi yang memiliki pengaruh yang sangat besar terhadap model regresi.

6. Kesimpulan

Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, diperoleh model regresi yang menunjukkan hubungan antara faktor-faktor yang dianalisis dengan Performance Index siswa. Hasil uji parsial (uji t) menunjukkan bahwa variabel Hours Studied dan Previous Scores memiliki pengaruh yang signifikan terhadap Performance Index. Selain itu, hasil uji simultan (uji F) menunjukkan bahwa kedua variabel independen tersebut secara bersama-sama berpengaruh signifikan terhadap Performance Index.

Nilai koefisien determinasi sebesar 0,9859 menunjukkan bahwa sekitar 98,59% variasi Performance Index dapat dijelaskan oleh variabel yang digunakan dalam model, sedangkan sisanya dijelaskan oleh faktor lain di luar model penelitian. Berdasarkan hasil uji asumsi klasik dan analisis plot diagnostik, model regresi yang diperoleh juga telah memenuhi asumsi dasar regresi.