Perguruan tinggi memainkan peran penting dalam membentuk masa dpan generasi muda dan berkontribusi pada pengembangan masyarakat. Setiap tahunnya, perguruan tinggi di Indonesia menerima ribuan mahasiswa baru yang diharapkan dapat menjadi pemimpin dan inovator di masa depan.
Dalam menentukan jumlah mahasiswa baru di tahun berikutnya, dapat dilihat dari data mahasiswa baru yang ada setiap tahunnya. Dalam beberapa tahun terakhir, jumlah mahasiswa baru yang mendaftar di perguruan tinggi mengalami penurunan. Penurunan jumlah mahasiswa baru di perguruan tinggi akibat biaya yang tinggi merupakan masalah kompleks yang dipengaruhi oleh berbagai faktor ekonomi dan sosial.
Dengan ini, saya akan menggunakan model regresi linear untuk menganalisis pengaruh biaya dan pendaftar perguruan tinggi terhadap prediksi mahasiswa baru.
Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu data sehingga memberikan informasi yang berguna (Walpole, 1995). Statistika deskriptif merupakan statistik yang mencangkup pengumpulan data, penyusunan data, pengolahan data, dan penyajian data dalam bentuk tabel, grafik, atau diagram.
Uji linearitas digunakan untuk melihat apakah model yang digunakan memiliki hubungan linear atau tidak. Uji linearitas sangat penting dalam regresi linier karena model regresi linier mengasumsikan bahwa hubungan antara variabel dependen dan independen dapat dijelaskan dengan garis lurus. Jika hubungan antara variabel tidak linier, hasil analisis regresi akan tidak akurat. Untuk menguji linearitas dapat membuat scatter plot. Jika titik-titik data membentuk pola yang mendekati garis lurus, maka hubungan linier.
Asumsi normalitas adalah sebuah uji yang dilakukan dengan tujuan untuk menilai sebaran data apakah data tersebut berdistribusi normal atau tidak.
Hipotesis :
\(H_0\) : Galat menyebar normal
\(H_1\) : Galat tidak menyebar normal
Uji normalitas dapat dilakukan dengan Uji Kolomogorov-smirnov, Saphiro-wilk, dan Jarque-bera.
Model regresi yang baik adalah ketidak tidak terjadi multikolinearitas. Multikolinearitas terjadi ketika dua atau lebih variabel independen dalam model regresi memiliki hubungan linear yang kuat antara satu sama lain yang membuat terjadinya ketidakpastian dalam pengujian hipotesis.
Salah satu cara untuk mendeteksi multikolinearitas adalah dengan mencari nilai Variance Inflation Factor (VIF) dengan rumus
\[ VIF_j = \frac{1}{1 - R_j^2} \] Apabila nilai VIF kurang dari 10 maka variabel prediktor bersifat independen.
Asumsi homoskedastisitas adalah asumsi dasar dalam analisis regresi linear yang menyatakan bahwa varians dari residual adalah konstan untuk semua tingkat nilai variabel independen. Pengujian homoskedastisitas dapat dilakukan dengan uji Breusch-Pagan. Apabila keputusan terima \(H_0\), maka asumsi terpenuhi.
hipotesis
\(H_0\) : varians dari residual adalah konstan
\(H_1\) : varians dari residual tidak konstan
Asumsi Autokorelasi digunakan untuk menguji apakah dalam sebuah model regresi linear terdapat korelasi antara error pada periode t dengan error pada periode sebelumnya. Pengujian autokorelasi dapat dilakukan dengan uji Durbin-Watson. Apabila keputusan Terima \(H_0\), maka asumsi autokorelasi terpenuhi.
hipotesis
\(H_0\) : Tidak terjadi Autokorelasi
\(H_1\) : Terjadi Autokorelasi
Regresi linier berganda adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Tujuannya adalah untuk menentukan persamaan linier yang paling sesuai dengan data, sehingga persamaan tersebut dapat digunakan untuk memprediksi nilai variabel dependen berdasarkan nilai variabel variabel dependen. Persamaan umum regresi linier berganda adalah :
\[ Y = \beta_{0} + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_x + \epsilon \] Keterangan :
\(Y\) = variabel respons
\(X_n\) = variabel prediktor
\(\beta_{0}\) = intercept
\(\beta_1X_1 + \beta_2X_2 + ... + \beta_nX_x\) = koefisien regresi
\(\epsilon\) = error
Pendugaan parameter dapat dihitung dengan matriks. Penduga \(\beta\) dapat ditentukan dengan rumus :
\[ \beta = (X^T X)^{-1} (X^T Y) \]
Pengujian parameter pada model regresi linear ada 2, yaitu uji simultan dan uji parsial
Uji simultan digunakan untuk mengetahui ada atau tidaknnya pengaruh secara bersama-sama atau secara simultan antara variabel independen terhadap variabel dependen. Jika nilai signifikan F lebih kecil dari \(\alpha\) , maka keputusan Tolak \(H_0\)
Hipotesis
\(H_0 : \beta_1 = \beta_2 = 0\)
\(H_1\) : Minimal terdapat salah satu $_i $
Uji parsial bertujuan untuk mengetahui apakah variabel independen secara parisal atau sendiri-sendiri berpengaruh terhadap variabel dependen. Jika nilai signifikansi lebih kecil dari \(\alpha\) maka keputusan Terima \(H_0\).
Hipotesis
\(H_0 : \beta_1 = 0\)
\(H_1 : \beta_1 \neq 0\)
Tujuan dari dilakukannya pengujian koefisien determinasi adalah untuk mengukur kemampuan model dalam menerangkan seberapa pengaruh variabel independen secara simultan mempengaruhi variabel dependen. Koefisien determinasi dapat dilihat melalui nilai \(R^2\) pada tabel Model Summarry. Jika nilai \(R^2\) semakin tinggi maka semakin baik model prediksi dari model penelitian yang diajukan (Ghozali,2016).
Koefisien determinasi dapat dicari dengan rumus :
\[ R^2 = \frac{JKR}{JKT} \]
Data yang digunakan merupakan data dari Jurnal yang saya dapatkan yang akan saya tulis di Daftar Pustaka.
> data <- data.frame(Y = c(79, 30, 26, 24, 23),
+ X1 = c(399, 399, 499, 499, 499),
+ X2 = c(96, 42, 30, 26, 52))
> data
Y X1 X2
1 79 399 96
2 30 399 42
3 26 499 30
4 24 499 26
5 23 499 52Keterangan :
Y = Prediksi Mahasiswa Baru
\(X_1\) = Biaya Perguruan Tinggi
\(X_2\) = Jumlah Pendaftar
Tujuan dari dilakukannya analisis regresi linear pada data tersebut adalah untuk menganalisis pengaruh biaya dan pendaftar perguruan tinggi terhadap prediksi mahasiswa baru.
- Mean
Rata-rata dari suatu sampel bisa didapatkan dengan menjumlahkan seluruh nilai kemudian dibagi dengan jumlah sampel tersebut.
Didapatkan mean dari variabel Y sebesar 36.4
- Median
Median merupakan nilai tengah dari data yang sudah diurutkan.
Didapatkan nilai tengah dari variabel X1 yaitu 499
- Varians
Varians adalah rata-rata dari jumlah kuadrat data.
Didapatkan nilai varians dari variabel X2 yaitu 479.2
- Standart Deviasi
Standart deviasi atau biasa disebut simpangan baku merupakan akar kuadrat dari varians.
Didapatkan nilai Standart Deviasi dari variabel X2 yaitu 28.0927
> library(ggpubr)
> ggscatter(data, x = "Y", y = "X2",
+ add = "reg.line", conf.int = TRUE,
+ cor.coef = TRUE, cor.method = c("pearson"),
+ xlab = "Biaya (X1)", ylab = "Pendaftar (X2)")
Kesimpulan : berdasarkan scatter plot yang didapatkan, terlihat bahwa
hubungannya linier
Hipotesis :
\(H_0\) : Galat menyebar normal
\(H_1\) : Galat tidak menyebar normal
\(\alpha\) = 0.05
Statistika Uji :
Keputusan :
\(p- value (0.00647) <\alpha\), maka Tolak \(H_0\)
\(p-value (0.1981) > \alpha\), maka Terima \(H_0\)
kesimpulan :
Dengan taraf nyata 5%, dapat disimpulkan bahwa galat tidak berdistribusi normal.
Dengan taraf nyata 5%, dapat disimpulkan bahwa galat berdistribusi normal.
> model <- lm(Y ~ X1 + X2 , data = data)
> model
Call:
lm(formula = Y ~ X1 + X2, data = data)
Coefficients:
(Intercept) X1 X2
34.39600 -0.07067 0.70000 Berdasarkan output diatas, dapat disimpulkan bahwa \(\beta_0\) = 34.396, $_1 = -0.07067, \(\beta_2\) = 0.7
Maka model regresi dari data tersebut adalah
\[ Y = 34.396 - 0.07067X_1 - 0.7X_2\] Interpretasi : - KOnstanta 34.396 menyatakan bahwa jika variabel Biaya dan Jumlah Pendaftar dianggap tetap maka Prediksi Mahasiswa Baru 34.396
Koefisien regresi X1 sebesar -0.07067 menyatakan bahwa setiap kenaikan Biaya akan mengurangi prediksi mahasiswa baru sebesar 0.07067.
Koefisien regresi X2 sebesar 0.7 menyatakan bahwa setiap terdapat peningkatan 1 Pendaftaran, maka akan meningkatkan prediksi mahasiswa baru sebesar 0.7
Asumsi multikolinearitas yang digunakan adalah dengan mencari nilai VIF. Didapatkan VIF variabel X1 dan X2 bernilai sekitar 1 yang artinya asumsi multikolinearitas terpenuhi
berdasarkan plot yang terbentuk, data akan membentuk pola berikut. Dari
pola tersebut perbedaan ragam residual dan model memenuhi uji
homoskedastisitas
Hipotesis
\(H_0\) : Tidak terjadi autokorelasi
\(H_1\) : Terjadi autokorelasi
Taraf nyata : \(\alpha : 0.05\)
Statistik uji :
> durbinWatsonTest(model)
lag Autocorrelation D-W Statistic p-value
1 -0.3638095 2.096667 0.55
Alternative hypothesis: rho != 0Keputusan : p-value > \(\alpha\), maka Terima \(H_0\)
Kesimpulan : dengan taraf nyata 5% dapat disimpulkan bahwa tidak ada korelasi antara residual dengan residual lainnya sehingga asumsi autokorelasi terpenuhi.
> summary(model)$coefficient
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.39600000 76.8256004 0.4477153 0.6981812
X1 -0.07066667 0.1457221 -0.4849413 0.6756349
X2 0.70000000 0.2841139 2.4638004 0.1327180Hipotesis
\(H_0 : \beta_1 = \beta_2 = 0\)
\(H_1\) : Minimal terdapat salah satu $_i $
Taraf nyata : \(\alpha\) = 0.05
Keputusan : p-value > \(\alpha\), maka terima \(H_0\)
Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam konstanta tidak mempengaruhi keragaman dalam Prediksi mahasiswa baru
Hipotesis
\(H_0 : \beta_1 = \beta_2 = 0\)
\(H_1\) : Minimal terdapat salah satu $_i $
Taraf nyata : \(\alpha\) = 0.05
Keputusan : p-value < \(\alpha\), maka Tolak \(H_0\)
Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam biaya mempengaruhi keragaman dalam Prediksi mahasiswa baru.
-X2
Hipotesis
\(H_0 : \beta_1 = \beta_2 = 0\)
\(H_1\) : Minimal terdapat salah satu $_i $
Taraf nyata : \(\alpha\) = 0.05
Keputusan : p-value > \(\alpha\), maka terima \(H_0\)
Kesimpulan : pada taraf nyata 5%, dapat disimpulkan bahwa keragaman dalam konstanta tidak mempengaruhi keragaman dalam Prediksi mahasiswa baru
Hipotesis
\(H_0 : \beta_1 = \beta_2 = 0\)
\(H_1\) : Minimal terdapat salah satu $_i $
Taraf nyata : \(\alpha\) = 0.05
> summary(model)
Call:
lm(formula = Y ~ X1 + X2, data = data)
Residuals:
1 2 3 4 5
5.600 -5.600 5.867 6.667 -12.533
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.39600 76.82560 0.448 0.698
X1 -0.07067 0.14572 -0.485 0.676
X2 0.70000 0.28411 2.464 0.133
Residual standard error: 12.22 on 2 degrees of freedom
Multiple R-squared: 0.87, Adjusted R-squared: 0.74
F-statistic: 6.692 on 2 and 2 DF, p-value: 0.13Keputusan : karena p-value > \(\alpha\), maka Terima \(H_0\)
Kesimpulan : dengan taraf nyata 5%, dapat disimpulkan bahwa Biaya dan Pendaftar perguruan tinggi tidak memengaruhi Prediksi mahasiswa baru secara simultan.
Dari hasil uji yang sudah didapatkan, dapat disimpulkan bahwa Biaya dan Pendaftar perguruan tinggi tidak memengaruhi Prediksi mahasiswa baru
Kesuma, H.D., Apriadi, D., Juliansa, H., & Etriyanti, E.(2022). Implementasi Data Mining Prediksi Mahasiswa Baru Menggunakan Algoritma Regresi Linear Berganda. Jurnal Ilmiah Binary STMIK Bina Nusantara Jaya, 62-66.
http://e-journal.stmik-bnj.ac.id/index.php/jb/article/download/74/80