Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Pendidikan menjadi sektor penting yang harus terus diperhatikan oleh pemerintah. Pendidikan menjadi pondasi dasar bagi generasi muda untuk membangun Indonesia kedepannya. Selain pemerataan sarana dan prasarana pendidikan diperlukan juga evaluasi mengenai proses pelaksanaan sistem pendidikan di Indonesia. Hal ini dapat diupayakan melalui evaluasi mengenai kurikulum pembelajaran yang selama ini dilaksanakan guna memberikan arahan untuk keputusan kedepannya.

Alasan pentingnya untuk mengevaluasi sistem pendidikan adalah yang pertama, pendidikan merupakan sebagai bekal generasi muda untuk membangun Indonesia di masa depan. Menurut Kurniawan (2017: 26), pendidikan adalah mengalihkan nilai-nilai, pengetahuan, pengalaman dan ketrampilan kepada generasi muda sebagai usaha generasi tua dalam menyiapkan fungsi hidup generasi selanjutnya, baik jasmani maupun rohani. Kedua, sebagai pembentukkan karakter untuk menjadikan Indonesia negara yang bermoral. Serta yang ketiga sebagai upaya peningkatan kesejahteraan masyarakat.

Kurikulum merupakan suatu rencana yang memberi pedoman atau pegangan dalam proses kegiatan belajar-mengajar (Syaodih, 2009:5). Salah satu cara untuk mengetahui apakah sistem kegiatan pembelajaran sudah baik adalah dengan cara melihat pengaruh banyaknya kursus/mata pelajaran yang diambil dan lama waktu belajar terhadap nilai siswa. Aspek-aspek tersebut dapat merepresentasikan apakah sistem pembelajaran sudah memiliki pengaruh baik terhadap hasil kerja mahasiswa (nilai).

1.2 Analisis Regresi Linier Berganda

Analisis linier regresi berganda merupakan suatu metode untuk menduga nilai pengaruh dari dua atau lebih variabel independen \((X_i)\) terhadap variabel dependen \(Y\). Menurut Drapper dan Smith (1992) hubungan antara satu variabel dependen dengan satu atau lebih variabel independen dapat dinyatakan dalam regresi linier berganda. Hubungan tersebut dapat dinyatakan secara umum sebagai berikut :

\[ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots +\beta_k X_{ik} + \epsilon_i \] Keterangan:
* \(\beta_k\) : parameter 1
* \(Y_i\) : variabel dependen
* \(X_{ik}\) : variabel independen
* \(\epsilon_i\) : error

1.3 Data

Data yang digunakan adalah Student Marks Dataset yakni data mengenai pengaruh jumlah kursus yang diambil dan lama belajar siswa terhadap nilai siswa yang diambil dari website kaggle

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> #Library(agricolae) #untuk uji lanjut (jika perlu)
> #Library(lmtest) #untuk pengecekan asumsi
> #Library(car) #untuk pengecekan asumsi
> #Library(tseries) #unutk pengecekan asumsi

2.2 Mengambil Data

> setwd("C:/Users/Lenovo/Documents/KULIYEAH/PERKULIAHAN/SEMESTER 4/KomStat")
Error in setwd("C:/Users/Lenovo/Documents/KULIYEAH/PERKULIAHAN/SEMESTER 4/KomStat"): cannot change working directory
> datareg<-read.csv("Student_Marks.csv", header = T, sep = ",")
> View(datareg)

Penggunan syntax di atas di atas untuk mengatur working directory pada tempat di mana file .csv berada dan membuka file .csv tersebut

2.3 Plot…

> smoothScatter(datareg$number_courses+datareg$time_study,datareg$Marks,
+               xlab = "Jumlah kursus dan Lama Belajar",
+               ylab = "Nilai", main = "Gambar 1. Smooth Scatter Plot")

Pada plot yang terbentuk, dapat dilihat bahwa pada Smooth Scatter Plot, grafik cendenrung membentuk garis linier sehingga terdapat hubungan linier antar variabel independen dengan variabel dependen.

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

> summary(datareg)
 number_courses   time_study        Marks       
 Min.   :3.00   Min.   :0.096   Min.   : 5.609  
 1st Qu.:4.00   1st Qu.:2.058   1st Qu.:12.633  
 Median :5.00   Median :4.022   Median :20.059  
 Mean   :5.29   Mean   :4.077   Mean   :24.418  
 3rd Qu.:7.00   3rd Qu.:6.179   3rd Qu.:36.676  
 Max.   :8.00   Max.   :7.957   Max.   :55.299  
> var(datareg$number_courses)
[1] 3.238283
> var(datareg$time_study)
[1] 5.630722
> var(datareg$Marks)
[1] 205.24
> sd(datareg$number_courses)
[1] 1.799523
> sd(datareg$time_study)
[1] 2.372914
> sd(datareg$Marks)
[1] 14.3262

Pada variabel number_courses \((X_1)\), dapat dilihat bahwa nilai terkecil adalah 3 dan nilai terbesar 8 dengan nilai rata-rata 5.39, median (nilai tengah) 5, serta ragam dan simpangan baku 3.238283 dan 1.799523. Kemudian, pada variabel time_study \((X_2)\), dapat dilihat bahwa nilai terkecil adalah 0,096 dan nilai terbesar 7,957 dengan nilai rata-rata 4.077, median (nilai tengah) berada pada 4.022, serta ragam dan simpangan baku 5.630722 dan 2.372914, sedangkan pada variabel Marks \(Y\) nilai terkecil adalah 5.609, nilai terbesar 55.299 dengan nilai rata-rata 24.418, median (nilai tengah) 20.059 serta ragam dan simpangan baku 205.24 dan 14.3262.

3.2 Pemeriksaan Asumsi

> anreg<-lm(datareg$Marks~datareg$number_courses+datareg$time_study, data=datareg)
> print(anreg)

Call:
lm(formula = datareg$Marks ~ datareg$number_courses + datareg$time_study, 
    data = datareg)

Coefficients:
           (Intercept)  datareg$number_courses      datareg$time_study  
                -7.456                   1.864                   5.399  

Syntax “lm” digunakan untuk membuat model regresi linier berganda, lalu untuk melihat apakah hasilnya dapat digunakan kita perlu menguji asumsi-asumsi regresi linier berganda terlebih dahulu.

> par(mfrow=c(2,2))
> plot(anreg)

Pada plot pertama (Residuals vs Fitted), terbentuk pola kurva dimana bisa dipertimbangkan untuk mengubah skala x. Pada plot 2 (Normal QQ), terdapat pelanggaran asumsi normalitas karena plot tidak linear dan tidak membentuk 45 derajat. Pada plot 3 (Scale Location), terlihat sedikit tidak horizontal akan teteapi grafik cenderung membtuk haris lurus sehingga tidak terdapat masalah heterokedastisitas. Pada plot 4 (Residuals vs Leverage) terdapat warning dan beberapa data yang berada di luar cook.

3.2.1 Asumsi Normalitas

Sebelumnya, dengan melihat plot Normal QQ, kita bisa melihat secara visual bahwa data cenderung memiliki pelanggaran normalitas, sehingga kita uji kembali dengan uji normalitas berikut:

> sisa<-residuals(anreg)
> library(tseries)
> jarque.bera.test(sisa)

    Jarque Bera Test

data:  sisa
X-squared = 9.956, df = 2, p-value = 0.006888
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.8956, p-value = 8.831e-07

Pada hasil uji normalitas, dapat dilihat bahwa p-value pada uji jarque bera mauppun saphiro wilk > 0.05 sehingga tolak \(H_0\) yang artinya terdapat pelanggaran asumsi normalitas atau galat pada model jumlah kursus dan lama waktu belajar terhadap nilai siswa tidak menyebar secara normal. Hal ini dapat ditangani dengan transformasi data ataupun membuat outlier yang menjadi penyebab data tidak normal.

3.2.2 Asumsi Homoskedastisitas

> library(lmtest)
> bptest(anreg)

    studentized Breusch-Pagan test

data:  anreg
BP = 2.9348, df = 2, p-value = 0.2305

Dengan menggunakan Breusch-Pagan test, didapatkan p-Value sebesar 0.2305 yang < \(\alpha\) (5%) sehingga terima H0 yang artinya sudah cukup bukti bahwa tidak terdapat pelanggaran asumsi homogenitas ragam galat pada model.

3.2.3 Asumsi Non Autokorelasi

> dwtest(anreg)

    Durbin-Watson test

data:  anreg
DW = 1.9779, p-value = 0.4517
alternative hypothesis: true autocorrelation is greater than 0

Pada uji durbin watson tersebut didapatkan p-Value 0.4517 > \(\alpha\) (5%) sehingga terima \(H_0\), yang artinya tidak terdapat autokorelasi atau dengan kata lain asumsi non autokorelasi pada ragam galat terpenuhi.

3.2.4 Asumsi Non Multikolinearitas

> library(car)
> vif(anreg)
datareg$number_courses     datareg$time_study 
              1.043799               1.043799 

Karena nilai VIF pada jumlah kursus yang diambil (1,043799) dan lama waktu belajar (1,043799) < 10, maka tidak terdapat hubungan antara variabel prediktor tersebut atau tidak terdapat multikolinearitas

3.3 ANOVA

> ANOVA<-aov(datareg$Marks~datareg$number_courses+datareg$time_study, data=datareg)
> summary(ANOVA)
                       Df Sum Sq Mean Sq F value Pr(>F)    
datareg$number_courses  1   3539    3539   283.3 <2e-16 ***
datareg$time_study      1  15568   15568  1246.3 <2e-16 ***
Residuals              97   1212      12                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dari hasil analisis anova dapat dilihat bahwa p-value dari jumlah kursus yang diambil dan lama waktu belajar siswa sangat kecil yakni \(< \alpha\) (5%) yang artinya kedua variabel tersebut berpengaruh secara signifikan terhadap nilai siswa.

3.4 Pembentukan Model Regresi

Dengan melihat summary pada anreg, didapatkan

> summary(anreg)

Call:
lm(formula = datareg$Marks ~ datareg$number_courses + datareg$time_study, 
    data = datareg)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5617 -3.1023 -0.8361  3.6051  7.2158 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             -7.4563     1.1745  -6.349 6.98e-09 ***
datareg$number_courses   1.8641     0.2017   9.243 5.78e-15 ***
datareg$time_study       5.3992     0.1529  35.303  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.534 on 97 degrees of freedom
Multiple R-squared:  0.9404,    Adjusted R-squared:  0.9391 
F-statistic: 764.8 on 2 and 97 DF,  p-value: < 2.2e-16

\[ Mark = -7.456 + 1.864Number Course + 5.399Time Study \] Maksud dari model yang terbentuk adalah jika tidak terdapat pengaruh variabel Jumlah kursus yang diambil dan lama waktu belajar, estimasi rata-rata nilai siswa sebesar -7.456. Apabila siswa mengikuti 1 kursus maka nilai akan bertambah 1.864 satuan, serta jika waktu belajar bertambah 1 satuan maka nilai juga akan bertambah 5.399 satuan.

4 DAFTAR PUSTAKA