LAPORAN PRAKTIKUM KOMPUTASI STATISTIKA

Nama: Bazliah Amalina
NIM: 2450090501111032
Program Studi: Sarjana Statistika
Universitas: Universitas Brawijaya


BAB I STUDI KASUS

Analisis dilakukan menggunakan software R dengan langkah sebagai berikut:

Eksplorasi Data

  • Menampilkan ringkasan statistik deskriptif
  • Membuat scatter plot antara variabel X dan Y
  • Menjelaskan hubungan awal yang terlihat

Model Regresi Linier Sederhana

Model yang digunakan adalah regresi linier sederhana dengan:
- Y = Exam_Score
- X = Hours_Studied

Uji Signifikansi Model

Melakukan uji t untuk mengetahui signifikansi model regresi

Uji Asumsi Regresi

Meliputi: - Uji normalitas residual - Uji homoskedastisitas - Uji autokorelasi


BAB II TINJAUAN PUSTAKA

Statistika Deskriptif

Statistika deskriptif adalah metode statistik yang digunakan untuk menggambarkan atau mendeskripsikan data sehingga lebih mudah dipahami. Analisis ini biasanya meliputi ukuran pemusatan data seperti mean, median, dan modus, serta ukuran penyebaran data seperti varians, standar deviasi, nilai minimum, dan maksimum. Statistika deskriptif bertujuan memberikan gambaran umum mengenai karakteristik data sebelum dilakukan analisis lebih lanjut.

Regresi Linier Sederhana

Regresi linier sederhana merupakan metode statistik yang digunakan untuk mengetahui hubungan antara satu variabel bebas (X) dengan satu variabel terikat (Y). Model regresi linier sederhana dinyatakan dalam persamaan:

Model:

\[ Y = a + \beta X \]

Keterangan: - Y = variabel respon
- X = variabel prediktor
- a = konstanta
- β = koefisien regresi

Koefisien regresi menunjukkan besarnya perubahan variabel respon akibat perubahan variabel prediktor. Jika nilai koefisien regresi positif, maka hubungan kedua variabel bersifat searah, sedangkan jika negatif maka hubungan bersifat berlawanan arah. Analisis regresi linier sederhana banyak digunakan untuk prediksi dan mengetahui pengaruh suatu variabel terhadap variabel lainnya.

Scatter Plot

Scatter plot atau diagram pencar merupakan grafik yang digunakan untuk menunjukkan hubungan antara dua variabel numerik. Setiap titik pada grafik menunjukkan pasangan nilai dari variabel X dan variabel Y.
Scatter plot digunakan untuk:
1. Mengetahui pola hubungan antar variabel.
2. Melihat arah hubungan variabel (positif atau negatif).
3. Mengidentifikasi adanya outlier.
4. Menentukan apakah hubungan data cenderung linear atau tidak.

Uji Signifikansi Regresi

Uji signifikansi regresi dilakukan untuk mengetahui apakah variabel bebas berpengaruh secara signifikan terhadap variabel terikat. Pada regresi linier sederhana, pengujian biasanya dilakukan menggunakan uji t terhadap koefisien regresi.

Uji Asumsi Regresi

Uji Normalitas Residual

Uji normalitas residual bertujuan untuk mengetahui apakah residual pada model regresi berdistribusi normal. Residual adalah selisih antara nilai observasi dan nilai prediksi model. Salah satu metode yang umum digunakan adalah uji Shapiro-Wilk. Selain uji statistik, normalitas residual juga dapat dilihat menggunakan histogram dan QQ-plot.

Uji Homoskedastisitas

Uji homoskedastisitas bertujuan mengetahui apakah varians residual bersifat konstan pada seluruh nilai prediksi. Jika varians residual tidak konstan, maka terjadi heteroskedastisitas.

Model regresi yang baik harus memenuhi asumsi homoskedastisitas. Pengujian dapat dilakukan menggunakan uji Breusch-Pagan.

Uji Linieritas

Uji linearitas digunakan untuk mengetahui apakah hubungan antara variabel bebas dan variabel terikat bersifat linear. Regresi linier mensyaratkan hubungan linear antar variabel.
Linearitas dapat diperiksa melalui scatter plot atau menggunakan uji statistik seperti ANOVA lack-of-fit test. Jika hubungan data membentuk pola mendekati garis lurus, maka asumsi linearitas dapat dikatakan terpenuhi.

Uji Independensi Residual

Uji independensi residual bertujuan mengetahui apakah residual saling bebas atau tidak terjadi autokorelasi. Autokorelasi sering muncul pada data runtun waktu (time series).Salah satu metode yang digunakan adalah uji Durbin-Watson.


BAB III SOURCE CODE DAN HASIL

Input Data

Hours_Studied <- c(
23,19,24,29,19,19,29,25,17,23,
17,27,21,14,21,28,20,13,16,28,
12,15,10,29,10,23,26,15,12,18,
17,16,17,30,14,27,12,21,20,11)

Exam_Score <- c(
67,61,74,71,70,71,74,71,67,72,
68,73,70,66,71,71,72,65,67,72,
66,61,65,73,66,62,73,62,61,66,
67,68,69,68,63,73,60,63,70,62)

Data <- data.frame(Hours_Studied, Exam_Score)
Data
##    Hours_Studied Exam_Score
## 1             23         67
## 2             19         61
## 3             24         74
## 4             29         71
## 5             19         70
## 6             19         71
## 7             29         74
## 8             25         71
## 9             17         67
## 10            23         72
## 11            17         68
## 12            27         73
## 13            21         70
## 14            14         66
## 15            21         71
## 16            28         71
## 17            20         72
## 18            13         65
## 19            16         67
## 20            28         72
## 21            12         66
## 22            15         61
## 23            10         65
## 24            29         73
## 25            10         66
## 26            23         62
## 27            26         73
## 28            15         62
## 29            12         61
## 30            18         66
## 31            17         67
## 32            16         68
## 33            17         69
## 34            30         68
## 35            14         63
## 36            27         73
## 37            12         60
## 38            21         63
## 39            20         70
## 40            11         62

Statistik Deskriptif

summary(Data)
##  Hours_Studied     Exam_Score   
##  Min.   :10.00   Min.   :60.00  
##  1st Qu.:15.00   1st Qu.:65.00  
##  Median :19.00   Median :68.00  
##  Mean   :19.68   Mean   :67.78  
##  3rd Qu.:24.25   3rd Qu.:71.00  
##  Max.   :30.00   Max.   :74.00

Scatter Plot

plot(Data$Hours_Studied, Data$Exam_Score,
     main = "Scatter Plot Hours Studied vs Exam Score",
     xlab = "Hours Studied",
     ylab = "Exam Score",
     pch = 19)

Model Regresi Linier Sederhana

model <- lm(Exam_Score ~ Hours_Studied, data = Data)
summary(model)
## 
## Call:
## lm(formula = Exam_Score ~ Hours_Studied, data = Data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.4248 -1.5928  0.8195  2.0523  4.0790 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   58.01265    1.64883  35.184  < 2e-16 ***
## Hours_Studied  0.49618    0.08028   6.181 3.22e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.994 on 38 degrees of freedom
## Multiple R-squared:  0.5013, Adjusted R-squared:  0.4882 
## F-statistic:  38.2 on 1 and 38 DF,  p-value: 3.215e-07

Persamaan Model

coef(model)
##   (Intercept) Hours_Studied 
##    58.0126548     0.4961802

Uji Normalitas Residual

qqnorm(residuals(model))
qqline(residuals(model), col = "red")

shapiro.test(residuals(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model)
## W = 0.91133, p-value = 0.004155

Uji Homoskedastisitas

plot(fitted(model), residuals(model),
     xlab = "Fitted Values",
     ylab = "Residuals",
     main = "Residual Plot")
abline(h = 0, col = "red")

Uji Autokorelasi

library(lmtest)
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.2028, p-value = 0.7516
## alternative hypothesis: true autocorrelation is greater than 0

BAB IV HASIL DAN PEMBAHASAN

Deskripsi Data

Data yang digunakan dalam laporan ini merupakan data performa siswa yang memuat berbagai informasi terkait faktor-faktor yang memengaruhi hasil belajar. Dari data tersebut dipilih dua variabel prediktor, yaitu Hours Studied (jumlah jam belajar) dan Attendance (tingkat kehadiran siswa), serta satu variabel respon yaitu Exam Score (nilai ujian). Pemilihan variabel ini didasarkan pada pertimbangan bahwa waktu belajar dan kehadiran di kelas merupakan faktor utama yang secara umum berpengaruh terhadap pencapaian akademik siswa, sehingga ketiganya dianggap representatif untuk menggambarkan hubungan antara kebiasaan belajar dan hasil ujian.

Dalam analisis ini digunakan metode regresi linear berganda untuk mengetahui pengaruh masing-masing variabel prediktor terhadap variabel respon serta membentuk model matematis yang menjelaskan hubungan tersebut. Selain itu, dilakukan pengujian signifikansi model dan variabel, serta uji asumsi klasik yang meliputi uji normalitas residual, homoskedastisitas, multikolinearitas, dan autokorelasi untuk memastikan bahwa model yang dihasilkan memenuhi kriteria statistik dan layak untuk diinterpretasikan.

Eksplorasi Data

Berdasarkan hasil analisis statistik deskriptif menggunakan fungsi summary(), diperoleh gambaran umum dari masing-masing variabel yaitu Hours Studied, Attendance, dan Exam Score. Pada variabel Hours Studied, nilai minimum sebesar 10 dan maksimum sebesar 30. Rata-rata jam belajar siswa adalah 19,68 jam dengan median 19 jam, yang menunjukkan bahwa sebaran data cukup simetris di sekitar nilai tengah.

Pada variabel Attendance, nilai kehadiran siswa berada pada rentang 64 hingga 99 dengan rata-rata sebesar 83,2. Nilai median sebesar 84 juga menunjukkan bahwa tingkat kehadiran siswa cenderung cukup tinggi dan relatif merata. Sementara itu, pada variabel Exam Score, nilai ujian siswa berkisar antara 60 hingga 74 dengan rata-rata sebesar 67,78. Nilai median sebesar 68 menunjukkan bahwa distribusi nilai ujian juga relatif stabil tanpa perbedaan yang terlalu ekstrem.

Secara umum, hasil statistik deskriptif ini menunjukkan bahwa data memiliki sebaran yang cukup wajar dan tidak terdapat nilai yang terlalu ekstrem, sehingga data layak untuk digunakan pada analisis regresi linear berganda.

Dari kedua scatter plot terlihat hubungan awal yang cenderung positif antara variabel prediktor dengan Exam Score. Pada Hours Studied, hubungan terlihat lebih jelas, semakin lama waktu belajar, nilai ujian cenderung meningkat. Sementara pada Attendance, hubungan juga positif tetapi sedikit lebih menyebar, sehingga pengaruhnya terlihat tidak sekuat jam belajar.

Model Regresi

Koefisien dalam model regresi menunjukkan arah dan besarnya pengaruh masing-masing variabel prediktor terhadap variabel respon.

  • Konstanta sebesar 39.16097 menunjukkan nilai prediksi Exam Score ketika Hours Studied dan Attendance bernilai nol.
  • Koefisien Hours Studied sebesar 0.40234 menunjukkan bahwa setiap peningkatan 1 satuan jam belajar akan meningkatkan nilai ujian sebesar 0.40234, dengan asumsi variabel lainnya konstan.
  • Koefisien Attendance sebesar 0.24877 menunjukkan bahwa setiap peningkatan 1 satuan tingkat kehadiran akan meningkatkan nilai ujian sebesar 0.24877, dengan asumsi variabel lainnya konstan.

Uji Signifikansi

Berdasarkan hasil uji t, didapatkan bahwa baik Hours Studied maupun Attendance secara parsial memiliki pengaruh yang signifikan terhadap Exam Score. Dengan demikian, kedua variabel tersebut layak dimasukkan dalam model regresi karena memberikan kontribusi dalam menjelaskan variasi nilai ujian siswa.

Uji Asumsi

  • Berdasarkan hasil uji normalitas residual menggunakan Shapiro-Wilk, diperoleh nilai p-value > 0,05 sehingga dapat disimpulkan bahwa residual berdistribusi normal. Hal ini juga didukung oleh hasil Normal Q-Q Plot yang menunjukkan titik-titik residual mengikuti garis diagonal, sehingga asumsi normalitas dalam model regresi dapat dikatakan terpenuhi.

  • Pada Hasil uji homoskedastisitas menunjukkan bahwa penyebaran residual terhadap nilai prediksi bersifat acak dan tidak membentuk pola tertentu, sehingga tidak terdapat gejala heteroskedastisitas.

  • Untuk uji multikolinearitas, nilai VIF pada variabel independen berada di bawah 10 sehingga tidak terjadi masalah multikolinearitas.

  • Hasil uji autokorelasi menggunakan Durbin-Watson menunjukkan tidak adanya indikasi autokorelasi pada residual.

Secara keseluruhan, seluruh asumsi klasik regresi telah terpenuhi sehingga model yang digunakan dapat dikatakan layak dan memenuhi kriteria BLUE.


BAB V KESIMPULAN

Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, diperoleh bahwa variabel Hours Studied dan Attendance memiliki pengaruh positif terhadap Exam Score. Semakin tinggi jam belajar dan tingkat kehadiran siswa, maka nilai ujian yang diperoleh cenderung meningkat.

Hasil uji signifikansi menunjukkan bahwa kedua variabel independen berpengaruh signifikan terhadap nilai ujian karena memiliki p-value kurang dari 0,05. Selain itu, hasil pengujian asumsi regresi menunjukkan bahwa model telah memenuhi asumsi normalitas, homoskedastisitas, tidak terjadi multikolinearitas, serta tidak terdapat autokorelasi pada residual.

Dengan terpenuhinya asumsi-asumsi regresi tersebut, model yang diperoleh dapat digunakan dengan baik untuk menjelaskan hubungan antara jam belajar dan tingkat kehadiran terhadap hasil ujian siswa. Secara keseluruhan, dapat disimpulkan bahwa kebiasaan belajar dan kehadiran di kelas merupakan faktor yang berperan dalam meningkatkan performa akademik siswa.


DAFTAR PUSTAKA

Lainguyn123. (n.d.). Student performance factors [Data set]. Kaggle. Diakses pada 27 Mei 2026, dari https://www.kaggle.com/datasets/lainguyn123/student-performance-factors

Sari, A. Q., Sukestiyarno, Y. L., & Agoestanto, A. (2018). Batasan prasyarat uji normalitas dan uji homogenitas pada model regresi linear. Unnes Journal of Mathematics, 6(2).

Pujilestari, S., Dwidayati, N., & Sugiman. (2017). Pemilihan model regresi linier berganda terbaik pada kasus multikolinieritas berdasarkan metode PCA dan stepwise. Unnes Journal of Mathematics, 6(1).