Analisis Regresi dan Asumsi

Inggar Nadalia Anfitria

1 Juni 2024


Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
> # install.packages("car")
> # install.packages("ggplot2")
> # install.packages("lmtest")

1 PENDAHULUAN

1.1 Latar Belakang

Penggunaan statistika dalam pengolahan data penelitian akan memengaruhi seberapa baik hasil penelitian dianalisis. Regresi adalah bentuk hubungan dua variabel atau lebih yang dinyatakan dengan bentuk hubungan atau fungsi. Uji Regresi dapat digunakan untuk memprediksi dan mengukur seberapa besar pengaruh suatu varibabel independen terhadap variabel dependen. Variabel prediktor disebut dengan variabel X dan variabel respons disebut dengan variabel Y.

Analisis regresi dapat digunakan di beberapa bidang, antara lain: bidang teknik, fisika, ekonomi, manajemen, dan lain-lain. Fungsi utama model regresi adalah deskripsi data, penaksiran parameter, prediksi, dan kontrol.

Dalam konteks pendidikan, khususnya dalam mengukur kinerja akademik mahasiswa, analisis regresi menjadi metode yang serba guna. Salah satu variabel yang dapat dianalisis adalah jam belajar mahasiswa, yang diasumsikan memiliki pengaruh signifikan terhadap Indeks Prestasi Kumulatif (IPK). Dengan menggunakan analisis regresi, kita dapat mengevaluasi seberapa besar pengaruh jam belajar terhadap IPK mahasiswa, serta memprediksi IPK berdasarkan jumlah jam belajar. Analisis ini tidak hanya memberikan wawasan tentang faktor-faktor yang memengaruhi kinerja akademik, tetapi juga membantu dalam pengambilan keputusan untuk meningkatkan kualitas pendidikan.

2 TINJAUAN PUSTAKA

2.1 Statistika Deskriptif

Statistik deskriptif digunakan untuk mengubah data penelitian menjadi bentuk yang lebih mudah dipahami dan diinterpretasikan. Dilakukan dengan menampilkan ringkasan dan penyusunan data dalam bentuk numerik dan grafik.Statistika deskriptif memberikan informasi tentang karakteristik variabel penelitian sambil mendukung variabel yang diteliti. Aktivitas yang berkaitan dengan statistik deskriptif seperti menghitung mean (rata-rata), median, modus, standar deviasi, kenormalan distribusi data, dan sebagainya (Wahyuni, 2021).

2.2 Analisis Regresi Linier

Analisis regresi merupakan teknik statistika untuk memprediksi nilai variabel respons berdasarkan variabel prediktor. Jika variabel prediktor hanya satu, maka analisis regresi disebut analisis regresi sederhana dan jika lebih dari satu, maka disebut analisis regresi linear berganda. Adanya ketergantungan antara variabel satu dan variabel lainnya adalah syarat dari regresi, variabel dalam regresi biasanya bersifat sebab akibat yaitu saling berpengaruh (Kurniawan, 2016).

2.2.1 Regresi Linier Sederhana

Model regresi linier sederhana adalah model probabilistik yang menyatakan hubungan linier antara dua variabel di mana salah satu variabel dianggap memengaruhi variabel yang lain. Variabel yang memengaruhi adalah variabel prediktor (X) dan variabel yang dipengaruhi dinamakan variabel respons (Y). Model untuk regresi linier sederhana adalah

\[ Y = \beta_{0}+\beta_{1}X + \varepsilon \]

  • X adalah variabel prediktor

  • Y adalah variabel respons

  • Beta adalah parameter yang nilainya tidak diketahui yang dinamakan koefisien regresi

  • Varepsilon adalah galat acak

2.2.2 Regresi Linier Berganda

Analisis regresi linier berganda menggunakan persamaan yang menunjukkan hubungan antara dua atau lebih variabel prediktor (X1, X2,…, Xn) dan satu variabel respons (Y). Tujuan dari model ini adalah untuk memprediksi nilai variabel respons (Y) dalam kasus di mana nilai variabel bebas atau prediktor (X1, X2,…, Xn) diketahui. Selain itu, untuk mengetahui bagaimana variabel bebas dan variabel tak bebas berinteraksi satu sama lain (Yuliara, 2016).

\[ Y = \beta_{0}+\beta_{1}X_1 + \beta_{2}X_2+\varepsilon \]

  • X adalah variabel prediktor

  • Y adalah variabel respons

  • Beta adalah parameter yang nilainya tidak diketahui yang dinamakan koefisien regresi

  • Varepsilon adalah galat acak

2.3 Uji Asumsi Klasik

2.3.1 Normalitas Galat

Pengujian normalitas adalah menguji normalitas sebaran data. Pengujian normalitas merupakan syarat untuk pengujian parameter. Pengujian normalitas dapat dilakukan dengan menggunakan uji Saphiro Wilk. Data dikatakan berdistribusi normal apabila nilai signifikansinya lebih besar dari alpha (0.05) (Wiyono, 2011).

Hipotesis:\[ H_0: \text{Galat menyebar normal}\\ \text{vs}\\ H_1: \text{Galat menyebar tidak normal} \]
Keputusan yang diharapkan: \[ \text{Jika } p-value \ > \alpha, \text{ maka Terima } H_0. \]

2.3.2 Homoskedastisitas

Uji heteroskedastisitas digunakan untuk memeriksa apakah dalam model regresi terdapat kesamaan varians residual antara observasi yang satu dengan observasi yang lain. Salah satu cara untuk mendeteksi homogenitas adalah dengan menggunakan uji Breusch-Pagan.

Hipotesis:\[ H_0: \text{Ragam homogen}\\ \text{vs}\\ H_1: \text{Ragam tidak homogen} \]
Keputusan yang diharapkan: \[ \text{Jika } p-value \ > \alpha, \text{ maka Terima } H_0. \]

2.3.3 Non-Multikolinearitas

Menurut Ghozali (2013), uji multikolinearitas digunakan untuk menentukan apakah ada korelasi antara variabel prediktor dalam model regresi. Nilai VIF (Variance Inflating Factor) dan Tolerance masing-masing variabel prediktor diukur untuk menentukan adanya multikolinearitas. Nilai VIF akan semakin besar jika terdapat korelasi yang semakin besar diantara variabel bebas. Nilai VIF > 10 dapat digunakan sebagai petunjuk adanya multikolinearitas. Dasar pengambilan keputusan dalam uji mulikolinearitas adalah :

  • Jika nilai tolerance > 0,10 atau nilai VIF < 10,00 artinya tidak terjadi multikolinearitas.

  • Jika nilai tolerance < 0,10 atau nilai VIF > 10,00 artinya terjadi multikoleniaritas.

Hipotesis:\[ H_0: \text{Tidak terdapat multikolinearitas}\\ \text{vs}\\ H_1: \text{Terdapat multikolinearitas} \]
Keputusan yang diharapkan: \[ \text {VIF < 10 } , \text{ maka tidak terjadi multikolinearitas } \]

2.3.4 Non-Autokolerasi

Uji autokorelasi adalah untuk menentukan apakah ada korelasi antara kesalahan pengganggu pada periode t dan kesalahan pengganggu pada periode t-1 dalam model regresi linier. Model regresi yang baik adalah jika tidak terdapat autokorelasi. Pendekatan yang sering digunakan untuk menguji ada tidaknya autokorelasi adalah uji Durbin-Watson (Ghozali, 2013).

Hipotesis:\[ H_0: \text{Tidak terdapat autokorelasi}\\ \text{vs}\\ H_1: \text{Terdapat autokorelasi} \]

Keputusan yang diharapkan: \[ \text{Jika } p-value \ > \alpha, \text{ maka Terima } H_0. \]

2.4 Uji Hipotesis

Hipotesis merupakan jawaban sementara terhadap suatu permasalahan tertentu, sehingga kebenarannya harus diuji secara eksperimental.

2.4.1 Uji T (Parsial)

Uji-t merupakan uji koefisien regresi parsial individu yang memungkinkan untuk melihat apakah variabel prediktor secara individual mempengaruhi variabel respons.

Hipotesis:\[ H_0: \beta_0=0 \text{ (Model tidak layak digunakan)}\\ \text{vs}\\ H_1: \beta_1≠0 \text{ (Model layak digunakan)} \]
Keputusan yang diharapkan: \[ \text{Jika } p-value \ < \alpha, \text{ maka Tolak } H_0. \]

2.4.2 Uji F (Simultan)

Pengujian hipotesis dilakukan secara simultan dengan

Hipotesis:\[ H_0: \beta_0=0 \text{ (Model tidak layak digunakan)}\\ \text{vs}\\ H_1: \beta_1≠0 \text{ (Model layak digunakan)} \]
Keputusan yang diharapkan: \[ \text{Jika } p-value \ < \alpha, \text{ maka Tolak } H_0. \]

2.5 Uji R dan R kuadrat

Koefisien determinasi digunakan untuk mengetahui persentase perubahan variabel respons(Y) yang disebabkan oleh variabel prediktor (X).

3 SOURCE CODE

3.1 Library

> # Library
> library("ggplot2")
> library("lmtest")    
> library("car")       
> library("tseries")   

3.2 Data

Berikut terdapat 20 data pengaruh variabel Jam Belajar (X) terhadap variabel IPK (Y).

> Data <- data.frame(Jam_Belajar=c(10,12,10,15,14,12,13,15,16,14,
+                                  13,12,11,10,13,13,14,18,17,14),
+                    IPK         = c(3.33,2.92,2.56,3.08,3.57,3.31,
+                                    3.45,3.93,3.82,3.70,3.26,3,
+                                    2.74,2.85,3.33,3.29,3.58,3.85,4,3.5))
> Data
   Jam_Belajar  IPK
1           10 3.33
2           12 2.92
3           10 2.56
4           15 3.08
5           14 3.57
6           12 3.31
7           13 3.45
8           15 3.93
9           16 3.82
10          14 3.70
11          13 3.26
12          12 3.00
13          11 2.74
14          10 2.85
15          13 3.33
16          13 3.29
17          14 3.58
18          18 3.85
19          17 4.00
20          14 3.50

4 HASIL DAN PEMBAHASAN

4.1 Statistika Deskriptif

> library(ggplot2)
> Plot <- ggplot(Data, aes(x = Jam_Belajar, y = IPK)) +
+           geom_point(color = 'skyblue') +
+           ggtitle('Pengaruh Jam Belajar terhadap IPK Mahasiswa') +
+           theme_minimal() 
> Plot

4.2 Analisis Regresi

4.2.1 Menentukan Model

> regresi <- lm(IPK ~ Jam_Belajar, data = Data)
> summary(regresi)

Call:
lm(formula = IPK ~ Jam_Belajar, data = Data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.52668 -0.17079  0.03171  0.12698  0.46796 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.37276    0.33329   4.119 0.000645 ***
Jam_Belajar  0.14893    0.02473   6.022 1.08e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.24 on 18 degrees of freedom
Multiple R-squared:  0.6683,    Adjusted R-squared:  0.6498 
F-statistic: 36.26 on 1 and 18 DF,  p-value: 1.078e-05

Maka, diperoleh model regresinya: \[ Y=1.37276+0.14893X_1 \]

4.3 Uji Asumsi Klasik

4.3.1 Asumsi Normalitas

Hipotesis: \[ H_0: \text{Galat menyebar normal}\\ \text{vs}\\ H_1: \text{Galat menyebar tidak normal}\\ \] Tingkat signifikansi: \[\alpha= 0.05\]

Statistik uji:

> sisa = residuals(regresi)
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.98029, p-value = 0.9378

Keputusan:\[ \text{Karena } p-value \ (0.9378) > \alpha \ (0.05), \text{ maka Terima } H_0. \]

Kesimpulan:

Dengan taraf nyata 5%, dapat disimpulkan bahwa galat menyebar normal, asumsi normalitas terpenuhi.

> library(ggplot2)
> ggplot(Data, aes(sample = resid(regresi))) +
+   stat_qq() +
+   geom_abline(color = "pink") +
+   labs(title = "Normal Q-Q Plot")

4.3.2 Asumsi Homoskedastisitas

Hipotesis: \[ H_0: \text{Ragam homogen}\\ \text{vs}\\ H_1: \text{Ragam tidak homogen}\\ \]

Tingkat signifikansi: \[\alpha= 0.05\]

Statistik uji:

> bptest(regresi)

    studentized Breusch-Pagan test

data:  regresi
BP = 0.29915, df = 1, p-value = 0.5844

Keputusan: \[ \text{Karena } p-value \ (0.5844) > \alpha \ (0.05), \text{ maka Terima } H_0. \]

Kesimpulan:

Dengan taraf nyata 5%, dapat disimpulkan bahwa ragam homogen, asumsi homogenitas ragam terpenuhi.

4.3.3 Asumsi Non-Autokolerasi

Hipotesis: \[ H_0: \text{Tidak terdapat autokorelasi}\\ \text{vs}\\ H_1: \text{Terdapat autokorelasi}\\ \]

Tingkat signifikansi: \[\alpha= 0.05\]

Statistik uji:

> dwtest(regresi)

    Durbin-Watson test

data:  regresi
DW = 1.4408, p-value = 0.07484
alternative hypothesis: true autocorrelation is greater than 0

Keputusan: \[ \text{Karena } p-value \ (0.07484) > \alpha \ (0.05), \text{ maka Terima } H_0. \]

Kesimpulan:

Dengan taraf nyata 5%, dapat disimpulkan bahwa tidak terdapat autokorelasi, asumsi non-autokorelasi terpenuhi.

4.4 Uji Hipotesis

4.4.1 Uji Hipotesis F (Simultan)

Hipotesis:\[ H_0: \beta_0=0 \text{ (Model tidak layak digunakan)}\\ \text{vs}\\ H_1: \beta_1≠0 \text{ (Model layak digunakan)} \]

Tingkat signifikansi: \[\alpha= 0.05\]

Statistik uji:

> anova(regresi)
Analysis of Variance Table

Response: IPK
            Df Sum Sq Mean Sq F value    Pr(>F)    
Jam_Belajar  1 2.0893 2.08931  36.261 1.078e-05 ***
Residuals   18 1.0372 0.05762                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Keputusan : \[ \text{Karena } p-value\ (0.00001078) \ < \alpha\ (0.05), \text{ maka Tolak } H_0. \]

Kesimpulan:

Dengan taraf nyata 0.05, dapat disimpulkan bahwa variabel jam belajar berpengaruh secara positif dan sifnifikan secara simultan terhadap IPK mahasiswa.

4.4.2 Uji Hipotesis T (Parsial)

Hipotesis:\[ H_0: \beta_0=0 \text{ (Model tidak layak digunakan)}\\ \text{vs}\\ H_1: \beta_1≠0 \text{ (Model layak digunakan)} \]

Tingkat signifikansi: \[\alpha= 0.05\]

Statistik uji:

> regresi <- lm(IPK ~ Jam_Belajar, data = Data)
> summary(regresi)

Call:
lm(formula = IPK ~ Jam_Belajar, data = Data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.52668 -0.17079  0.03171  0.12698  0.46796 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.37276    0.33329   4.119 0.000645 ***
Jam_Belajar  0.14893    0.02473   6.022 1.08e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.24 on 18 degrees of freedom
Multiple R-squared:  0.6683,    Adjusted R-squared:  0.6498 
F-statistic: 36.26 on 1 and 18 DF,  p-value: 1.078e-05

Keputusan: \[ \text{Karena } p-value\ (0.0000108) \ < \alpha\ (0.05), \text{ maka Tolak } H_0. \]

Kesimpulan: Dengan taraf nyata 0.05, dapat disimpulkan bahwa variabel jam belajar berpengaruh secara positif dan sifnifikan secara parsial terhadap IPK mahasiswa.

4.5 Uji R dan R kuadrat

Statistik uji:

> regresi <- lm(IPK ~ Jam_Belajar, data = Data)
> summary(regresi)

Call:
lm(formula = IPK ~ Jam_Belajar, data = Data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.52668 -0.17079  0.03171  0.12698  0.46796 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.37276    0.33329   4.119 0.000645 ***
Jam_Belajar  0.14893    0.02473   6.022 1.08e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.24 on 18 degrees of freedom
Multiple R-squared:  0.6683,    Adjusted R-squared:  0.6498 
F-statistic: 36.26 on 1 and 18 DF,  p-value: 1.078e-05

Berdasarkan perhitungan di atas, menunjukkan bahwa nilai koefisien determinasi sebesar 0.6683. Hal ini menjelaskan bahwa besar kontribusi variabel Jam Belajar terhadap IPK Mahasiswa sebesar 66,83% sisanya 33.17 dipengaruhi oleh variabel lain.

5 KESIMPULAN

Berdasarkan hasil model analisis regresi, uji asumsi klasik, uji hipotesis, dan uji koefisien determinasi dengan model regresi linear \[ Y=1.37276+0.14893X_1 \] dapat disimpulkan bahwa variabel prediktor (Jam Belajar) berpengaruh terhadap variabel respons (IPK Mahasiswa) yang menunjukkan bahwa setiap mahasiswa harus meningkatkan jam belajarnya untuk mendapatkan IPK yang tinggi. Setiap peningkatan 1 jam belajar akan meningkatkan IPK sebesar 0.14893.

6 DAFTAR PUSTAKA

Efendi,Achmad, Ni Wayan S Wardhani, Rahma Fitriani, Eni Sumarminingsih. 2020. Analisis Regresi. Malang: UB Press.

Harlan, J., 2018. Analisis Regresi Linear. Penerbit Gunadarma.

Kurniawan, R., 2016. Analisis regresi. Prenada Media.

Permatasari, R.I., 2022. Pengaruh Pengembangan Karier Dan Disiplin Kerja Terhadap Prestasi Kerja Pegawai Negeri Sipil (Pns) Staf Umum Bagian Pergudangan Penerbangan Angkatan Darat (Penerbad) Di Tangerang. Jurnal Ilmiah M-Progress, 12(1).

Sumarminingsih, Eni, Achmad Efendi, dan Adji Achmad Rinaldo F. 2022. Komputasi Statistika. Malang: UB Press.

Suyono, M.S., 2015.Analisis Regresi untuk Penelitian. Deepublish.

Wahyuni, M., 2021. Statistik Deskriptif untuk Penelitian Olah Data Manual dan SPSS Versi 25: Bintang Pustaka.