1 PENDAHULUAN

1.1 Latar Belakang

Perguruan tinggi memainkan peran penting dalam membentuk masa dpan generasi muda dan berkontribusi pada pengembangan masyarakat. Setiap tahunnya, perguruan tinggi di Indonesia menerima ribuan mahasiswa baru yang diharapkan dapat menjadi pemimpin dan inovator di masa depan.

Dalam menentukan jumlah mahasiswa baru di tahun berikutnya, dapat dilihat dari data mahasiswa baru yang ada setiap tahunnya. Dalam beberapa tahun terakhir, jumlah mahasiswa baru yang mendaftar di perguruan tinggi mengalami penurunan. Penurunan jumlah mahasiswa baru di perguruan tinggi akibat biaya yang tinggi merupakan masalah kompleks yang dipengaruhi oleh berbagai faktor ekonomi dan sosial.

Dengan ini, saya akan menggunakan model regresi linear untuk menganalisis pengaruh biaya dan pendaftar perguruan tinggi terhadap prediksi mahasiswa baru.

2 Tinjauan Pustaka

2.1 Statistika Deskriptif

Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu data sehingga memberikan informasi yang berguna (Walpole, 1995). Statistika deskriptif merupakan statistik yang mencangkup pengumpulan data, penyusunan data, pengolahan data, dan penyajian data dalam bentuk tabel, grafik, atau diagram.

2.2 Asumsis Klasik

2.2.1 Uji Linearitas

Uji linearitas digunakan untuk melihat apakah model yang digunakan memiliki hubungan linear atau tidak. Uji linearitas sangat penting dalam regresi linier karena model regresi linier mengasumsikan bahwa hubungan antara variabel dependen dan independen dapat dijelaskan dengan garis lurus. Jika hubungan antara variabel tidak linier, hasil analisis regresi akan tidak akurat. Untuk menguji linearitas dapat membuat scatter plot. Jika titik-titik data membentuk pola yang mendekati garis lurus, maka hubungan linier.

2.2.2 Asumsi Normalitas

Asumsi normalitas adalah sebuah uji yang dilakukan dengan tujuan untuk menilai sebaran data apakah data tersebut berdistribusi normal atau tidak.

Hipotesis :

\(H_0\) : Galat menyebar normal

\(H_1\) : Galat tidak menyebar normal

Uji normalitas dapat dilakukan dengan Uji Kolomogorov-smirnov, Saphiro-wilk, dan Jarque-bera.

2.2.3 Asumsi Multikolinearitas

Model regresi yang baik adalah ketidak tidak terjadi multikolinearitas. Multikolinearitas terjadi ketika dua atau lebih variabel independen dalam model regresi memiliki hubungan linear yang kuat antara satu sama lain yang membuat terjadinya ketidakpastian dalam pengujian hipotesis.

Salah satu cara untuk mendeteksi multikolinearitas adalah dengan mencari nilai Variance Inflation Factor (VIF) dengan rumus

\[ VIF_j = \frac{1}{1 - R_j^2} \] Apabila nilai VIF kurang dari 10 maka variabel prediktor bersifat independen.

2.2.4 Asumsi Homoskedastisitas

Asumsi homoskedastisitas adalah asumsi dasar dalam analisis regresi linear yang menyatakan bahwa varians dari residual adalah konstan untuk semua tingkat nilai variabel independen. Pengujian homoskedastisitas dapat dilakukan dengan uji Breusch-Pagan. Apabila keputusan terima \(H_0\), maka asumsi terpenuhi.

hipotesis

\(H_0\) : varians dari residual adalah konstan

\(H_1\) : varians dari residual tidak konstan

2.2.5 Asumsi Autokorelasi

Asumsi Autokorelasi digunakan untuk menguji apakah dalam sebuah model regresi linear terdapat korelasi antara error pada periode t dengan error pada periode sebelumnya. Pengujian autokorelasi dapat dilakukan dengan uji Durbin-Watson. Apabila keputusan Terima \(H_0\), maka asumsi autokorelasi terpenuhi.

hipotesis

\(H_0\) : Tidak terjadi Autokorelasi

\(H_1\) : Terjadi Autokorelasi

2.2.6 Regresi Linier Berganda

Regresi linier berganda adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Tujuannya adalah untuk menentukan persamaan linier yang paling sesuai dengan data, sehingga persamaan tersebut dapat digunakan untuk memprediksi nilai variabel dependen berdasarkan nilai variabel variabel dependen. Persamaan umum regresi linier berganda adalah :

\[ Y = \beta_{0} + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_x + \epsilon \] Keterangan :

\(Y\) = variabel respons

\(X_n\) = variabel prediktor

\(\beta_{0}\) = intercept

\(\beta_1X_1 + \beta_2X_2 + ... + \beta_nX_x\) = koefisien regresi

\(\epsilon\) = error

2.2.7 Pendugaan Parameter

Pendugaan parameter dapat dihitung dengan matriks. Penduga \(\beta\) dapat ditentukan dengan rumus :

\[ \beta = (X^T X)^{-1} (X^T Y) \]

2.2.8 Pengujian Parameter

Pengujian parameter pada model regresi linear ada 2, yaitu uji simultan dan uji parsial

2.2.8.1 Uji Simultan

Uji simultan digunakan untuk mengetahui ada atau tidaknnya pengaruh secara bersama-sama atau secara simultan antara variabel independen terhadap variabel dependen. Jika nilai signifikan F lebih kecil dari \(\alpha\) , maka keputusan Tolak \(H_0\)

Hipotesis

\(H_0 : \beta_1 = \beta_2 = 0\)

\(H_1\) : Minimal terdapat salah satu $_i $

2.2.8.2 Uji Parsial

Uji parsial bertujuan untuk mengetahui apakah variabel independen secara parisal atau sendiri-sendiri berpengaruh terhadap variabel dependen. Jika nilai signifikansi lebih kecil dari \(\alpha\) maka keputusan Terima \(H_0\).

Hipotesis

\(H_0 : \beta_1 = 0\)

\(H_1 : \beta_1 \neq 0\)

2.2.9 Koefisien Determinasi

Tujuan dari dilakukannya pengujian koefisien determinasi adalah untuk mengukur kemampuan model dalam menerangkan seberapa pengaruh variabel independen secara simultan mempengaruhi variabel dependen. Koefisien determinasi dapat dilihat melalui nilai \(R^2\) pada tabel Model Summarry. Jika nilai \(R^2\) semakin tinggi maka semakin baik model prediksi dari model penelitian yang diajukan (Ghozali,2016).

Koefisien determinasi dapat dicari dengan rumus :

\[ R^2 = \frac{JKR}{JKT} \]

2.3 Data

Data yang digunakan merupakan data dari Jurnal yang saya dapatkan yang akan saya tulis di Daftar Pustaka.

> data <- data.frame(Y = c(79, 30, 26, 24, 23),
+                    X1 = c(399, 399, 499, 499, 499),
+                    X2 = c(96, 42, 30, 26, 52))
> data
   Y  X1 X2
1 79 399 96
2 30 399 42
3 26 499 30
4 24 499 26
5 23 499 52

Keterangan :

Y = Prediksi Mahasiswa Baru

\(X_1\) = Biaya Perguruan Tinggi

\(X_2\) = Jumlah Pendaftar

2.4 Tujuan

Tujuan dari dilakukannya analisis regresi linear pada data tersebut adalah untuk menganalisis pengaruh biaya dan pendaftar perguruan tinggi terhadap prediksi mahasiswa baru.

3 SOURCE CODE

3.1 Library

> library(ggpubr)
> library(car)

4 HASIL DAN PEMBAHASAN

4.1 Statistika Deskriptif

- Mean

Rata-rata dari suatu sampel bisa didapatkan dengan menjumlahkan seluruh nilai kemudian dibagi dengan jumlah sampel tersebut.

> mean(data$Y)
[1] 36.4

Didapatkan mean dari variabel Y sebesar 36.4

- Median

Median merupakan nilai tengah dari data yang sudah diurutkan.

> median(data$X1)
[1] 499

Didapatkan nilai tengah dari variabel X1 yaitu 499

- Varians

Varians adalah rata-rata dari jumlah kuadrat data.

> var(data$X2)
[1] 789.2

Didapatkan nilai varians dari variabel X2 yaitu 479.2

- Standart Deviasi

Standart deviasi atau biasa disebut simpangan baku merupakan akar kuadrat dari varians.

> sd(data$X2)
[1] 28.0927

Didapatkan nilai Standart Deviasi dari variabel X2 yaitu 28.0927

4.2 Asumsi Klasik

4.2.1 Asumsi Linearitas

> library(ggpubr)
> ggscatter(data, x = "Y", y = "X2",
+           add = "reg.line", conf.int = TRUE,
+           cor.coef = TRUE, cor.method = c("pearson"),
+           xlab = "Biaya (X1)", ylab = "Pendaftar (X2)")

Kesimpulan : berdasarkan scatter plot yang didapatkan, terlihat bahwa hubungannya linier

4.2.2 Asumsi Normalitas

Hipotesis :

\(H_0\) : Galat menyebar normal

\(H_1\) : Galat tidak menyebar normal

\(\alpha\) = 0.05

Statistika Uji :

> shapiro.test(data$X1)

    Shapiro-Wilk normality test

data:  data$X1
W = 0.68403, p-value = 0.00647
> shapiro.test(data$X2)

    Shapiro-Wilk normality test

data:  data$X2
W = 0.85113, p-value = 0.1981

Keputusan :

\(p- value (0.00647) <\alpha\), maka Tolak \(H_0\)

\(p-value (0.1981) > \alpha\), maka Terima \(H_0\)

kesimpulan :

  • Dengan taraf nyata 5%, dapat disimpulkan bahwa galat tidak berdistribusi normal.

  • Dengan taraf nyata 5%, dapat disimpulkan bahwa galat berdistribusi normal.

4.2.3 Analisis Regresi Linear Berganda

> model <- lm(Y ~ X1 + X2 , data = data)
> model

Call:
lm(formula = Y ~ X1 + X2, data = data)

Coefficients:
(Intercept)           X1           X2  
   34.39600     -0.07067      0.70000  

Berdasarkan output diatas, dapat disimpulkan bahwa \(\beta_0\) = 34.396, $_1 = -0.07067, \(\beta_2\) = 0.7

Maka model regresi dari data tersebut adalah

\[ Y = 34.396 - 0.07067X_1 - 0.7X_2\] Interpretasi : - KOnstanta 34.396 menyatakan bahwa jika variabel Biaya dan Jumlah Pendaftar dianggap tetap maka Prediksi Mahasiswa Baru 34.396

  • Koefisien regresi X1 sebesar -0.07067 menyatakan bahwa setiap kenaikan Biaya akan mengurangi prediksi mahasiswa baru sebesar 0.07067.

  • Koefisien regresi X2 sebesar 0.7 menyatakan bahwa setiap terdapat peningkatan 1 Pendaftaran, maka akan meningkatkan prediksi mahasiswa baru sebesar 0.7

4.2.4 Asumsi Multikolinearitas

> vif(model)
      X1       X2 
1.706378 1.706378 

Asumsi multikolinearitas yang digunakan adalah dengan mencari nilai VIF. Didapatkan VIF variabel X1 dan X2 bernilai sekitar 1 yang artinya asumsi multikolinearitas terpenuhi

4.2.5 Asumsi Homoskedastisitas

> ggplot(data, aes(x = fitted(model),
+                  y = resid(model))) +
+   geom_point() + geom_smooth() 

berdasarkan plot yang terbentuk, data akan membentuk pola berikut. Dari pola tersebut perbedaan ragam residual dan model memenuhi uji homoskedastisitas

4.2.6 Asumsi Autokorelasi

Hipotesis

\(H_0\) : Tidak terjadi autokorelasi

\(H_1\) : Terjadi autokorelasi

Taraf nyata : \(\alpha : 0.05\)

Statistik uji :

> durbinWatsonTest(model)
 lag Autocorrelation D-W Statistic p-value
   1      -0.3638095      2.096667    0.55
 Alternative hypothesis: rho != 0

Keputusan : p-value > \(\alpha\), maka Terima \(H_0\)

Kesimpulan : dengan taraf nyata 5% dapat disimpulkan bahwa tidak ada korelasi antara residual dengan residual lainnya sehingga asumsi autokorelasi terpenuhi.

4.3 Pengujian Parameter

4.3.1 Uji Parsial

> summary(model)$coefficient
               Estimate Std. Error    t value  Pr(>|t|)
(Intercept) 34.39600000 76.8256004  0.4477153 0.6981812
X1          -0.07066667  0.1457221 -0.4849413 0.6756349
X2           0.70000000  0.2841139  2.4638004 0.1327180
  • Intercept

Hipotesis

\(H_0 : \beta_1 = \beta_2 = 0\)

\(H_1\) : Minimal terdapat salah satu $_i $

Taraf nyata : \(\alpha\) = 0.05

Keputusan : p-value > \(\alpha\), maka terima \(H_0\)

Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam konstanta tidak mempengaruhi keragaman dalam Prediksi mahasiswa baru

  • X1

Hipotesis

\(H_0 : \beta_1 = \beta_2 = 0\)

\(H_1\) : Minimal terdapat salah satu $_i $

Taraf nyata : \(\alpha\) = 0.05

Keputusan : p-value < \(\alpha\), maka Tolak \(H_0\)

Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam biaya mempengaruhi keragaman dalam Prediksi mahasiswa baru.

-X2

Hipotesis

\(H_0 : \beta_1 = \beta_2 = 0\)

\(H_1\) : Minimal terdapat salah satu $_i $

Taraf nyata : \(\alpha\) = 0.05

Keputusan : p-value > \(\alpha\), maka terima \(H_0\)

Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam konstanta tidak mempengaruhi keragaman dalam Prediksi mahasiswa baru

4.3.2 Uji Simultan

Hipotesis

\(H_0 : \beta_1 = \beta_2 = 0\)

\(H_1\) : Minimal terdapat salah satu $_i $

Taraf nyata : \(\alpha\) = 0.05

> summary(model)

Call:
lm(formula = Y ~ X1 + X2, data = data)

Residuals:
      1       2       3       4       5 
  5.600  -5.600   5.867   6.667 -12.533 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.39600   76.82560   0.448    0.698
X1          -0.07067    0.14572  -0.485    0.676
X2           0.70000    0.28411   2.464    0.133

Residual standard error: 12.22 on 2 degrees of freedom
Multiple R-squared:   0.87, Adjusted R-squared:   0.74 
F-statistic: 6.692 on 2 and 2 DF,  p-value: 0.13

Keputusan : karena p-value > \(\alpha\), maka Terima \(H_0\)

Kesimpulan : dengan taraf nyata 5%, dapat disimpulkan bahwa Biaya dan Pendaftar perguruan tinggi tidak memengaruhi Prediksi mahasiswa baru secara simultan.

4.4 Koefisien Determinasi

> summary(model)$r.squared
[1] 0.8699867

Kesimpulan : Didapatkan koefisien determinasi sebesar 87%, artinya variabel prediktor dapat menjelaskan 87% terhadap variabel respons dan sisanya dijelaskan oleh faktor lain.

5 KESIMPULAN

Dari hasil uji yang sudah didapatkan, dapat disimpulkan bahwa Biaya dan Pendaftar perguruan tinggi tidak memengaruhi Prediksi mahasiswa baru

6 DAFTAR PUSTAKA

Kesuma, H.D., Apriadi, D., Juliansa, H., & Etriyanti, E.(2022). Implementasi Data Mining Prediksi Mahasiswa Baru Menggunakan Algoritma Regresi Linear Berganda. Jurnal Ilmiah Binary STMIK Bina Nusantara Jaya, 62-66.

http://e-journal.stmik-bnj.ac.id/index.php/jb/article/download/74/80