Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 PENDAHULUAN
1.1 Latar Belakang
Sebagai salah satu indikator keberhasilan mahasiswa adalah nilai perolehan tinggi yang dihitung dengan nilai rata-rata atau disebut dengan Indeks Prestasi Kumulatif (IPK). Indeks Prestasi Kumulatif yang selanjutnya disingkat IPK adalah angka prestasi akademik mahasiswa yang dihitung dari semua mata kuliah untuk semua semester yang telah diikuti oleh mahasiswa. Semakin baik penguasaan akademik mahasiswa maka prestasi yang diperoleh pun akan baik. Indeks Prestasi mahasiswa dipengaruhi oleh faktor dari dalam diri mahasiswa (faktor internal) maupun faktor dari luar diri mahasiswa (faktor eksternal). Dengan demikian yang menjadi permasalahan disini adalah bagaimana mengetahui faktor-faktor yang mempengaruhi IPK mahasiswa maka dapat digunakan analisis regresi logistik biner. Regresi Logistik adalah suatu metode analisis statistika untuk mendeskripsikan hubungan antara variabel terikat yang memiliki dua kategori atau lebih dengan satu atau lebih peubah bebas berskala kategori atau kontinu, sehingga analisis regresi logistik digunakan untuk menelaah faktor-faktor yang mempengaruhi indeks nilai A dalam suatu mata kuliah tertentu, salah satunya adalah Indeks Prestasi Mahasiswa (IPK). Dalam kasus ini variabel yang mempengaruhi adalah variabel IPK, dan variabel yang dipengaruhi adalah perolehan nilai akhir A (NA).
1.2 Statistika Deskriptif
1.2.1 Analisis Regresi
Analisis regresi adalah kajian Analisis Regresi adalah kajian terhadap hubungan satu variabel yang disebut sebagai variabel yang diterangkan dengan satu atau dua variabel yang menerangkan. (Gujarati,2006) Pada umumnya, persamaan regresi dapat dilambangkan sebagai berikut : \[ Y = a + bX + \epsilon = 0 \] Dimana a merupakan suatu konstanta, Y merupakan variabel yang dipengaruhi dan X adalah variabel bebas dengan epsilon yang merupakan galat dari suatu model. Model sederhana tersebut dapat digunakan untuk memprediksi suatu untuk mendapatkan keputusan apakah naik turunnya suatu variabel dapat dilakukan dengan peningkatan atau penurunan variabel lain. Dalam regresi, adapun pendugaan parameter dimana parameternya berupa beta0 dan beta1. beta0 dan beta1 diduga sebagai b0 dan b1 pada model.
1.2.2 Regresi Logistik
Metode regresi merupakan analisis data yang digunakan untuk mencari hubungan antara variabel respon (y) dengan satu atau lebih variabel prediktor (x) (Hosmer, 2000). Tujuan dari metode ini adalah memperoleh model yang baik dan sederhana yang menggambarkan variabel respon dengan sekumpulan variabel prediktor. Regresi logistik merupakan suatu analisis regresi yang digunakan untuk menggambarkan hubungan antara variabel respon yang bersifat dikotomus (berskala nominal atau ordinal dengan dua kategori) atau polikotomus (berskala nominal atau ordinal dengan lebih dari dua kategori) dengan sekumpulan variabel prediktor bersifat kontinu atau kategorik (Agresti, 1990). Analisis Regresi logistik tepat digunakan dalam pembuatan model dimana variabel dependen bersifat kategorikal (nonmetrik) dan variabel dependen boleh bersifat kontinyus atau kategorikal (Arofah, 2018).
###Uji Model Regresi Logistik Uji model dilakukan untuk memeriksa peranan variabel prediktor terhadap variabel respon secara serentak atau secara keseluruhan. Uji serentak ini disebut juga uji model chi square. Statistik uji G mengikuti distribusi chi-square, sehingga untuk memperoleh keputusan dilakukan perbandingan dengan nilai 𝜒^{2} tabel, dengan derajat bebas (db) = k-1, k merupakan banyaknya variabel prediktor.
###Koefisien Parameter Rasio peluang (odds ratio) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. \[ ψ= \frac{ {\frac{\mu_{1} } {1 - \mu_{1} } } } { {\frac {\mu_{0} }{ 1 - \mu_{0} } } } = \frac{e^\beta_{0} + \beta_{1} }{e^\beta_{0} } = e^\beta_{1} \] Bila nilai ψ = 1, maka antara kedua variabel tersebut tidak terdapat hubungan. Bila nilai ψ < 1, maka antara kedua variabel terdapat hubungan negatif terhadap perubahan kategori dari nilai x dan demikian sebaliknya bila 𝜓 >
1.3 Data
Penelitian ini menggunakan data yang diperoleh berdasarkan data bangkitan. Data pengamatan pada IPK, mengikuti sebaran Binomial(1,p) dengan parameter p sesuai π(X). Didefinisikan vektor peluang dengan bentuk π(X) = e(a+bX)/1+e(a+bX). Dalam kasus ini variabel yang mempengaruhi adalah Indeks Prestasi Mahasiswa (IPK), dan variabel yang dipengaruhi adalah perolehan nilai akhir A (NA).
2 SOURCE CODE
2.1 Library yang Dibutuhkan
> # Library
> 2.2 Membangkitkan Data
> #sebaran U(-1,1)
> a<-runif(1, min=-1, max=1)
> a
[1] 0.07799402
> #sebaran U(-1,1)
> b<-runif(1, min=-1, max=1)
> b
[1] 0.04899885
>
> #nilai ipk (X)
> ipk<-runif(53, min=2.1, max=4)
> ipk
[1] 3.581353 3.327004 2.557947 3.570588 2.300689 3.450571 2.155120 3.655825
[9] 2.260889 2.736714 3.853510 2.645588 2.672729 2.136562 2.509547 3.281649
[17] 3.070513 3.029998 3.566680 3.995912 2.313519 2.832070 3.037327 3.676964
[25] 3.282778 2.898559 3.703929 2.456495 3.926861 2.462858 2.862245 2.622333
[33] 2.340097 3.820316 2.420631 2.685422 2.182500 2.103459 2.587079 2.825063
[41] 3.518528 3.186366 2.246085 2.627745 3.412219 2.238143 3.286391 2.875512
[49] 3.554568 2.853977 3.244204 2.863966 2.493345
>
> #variabel prediktor (X)
> X<-ipk
> X
[1] 3.581353 3.327004 2.557947 3.570588 2.300689 3.450571 2.155120 3.655825
[9] 2.260889 2.736714 3.853510 2.645588 2.672729 2.136562 2.509547 3.281649
[17] 3.070513 3.029998 3.566680 3.995912 2.313519 2.832070 3.037327 3.676964
[25] 3.282778 2.898559 3.703929 2.456495 3.926861 2.462858 2.862245 2.622333
[33] 2.340097 3.820316 2.420631 2.685422 2.182500 2.103459 2.587079 2.825063
[41] 3.518528 3.186366 2.246085 2.627745 3.412219 2.238143 3.286391 2.875512
[49] 3.554568 2.853977 3.244204 2.863966 2.493345
>
> #Y Aktual (1= Memperoleh nilai A dalam data aktual, 0= selain A)
> yact<-rbinom(53,1,0.3)
> yact
[1] 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 1 0 1 0 0 1 0
[39] 1 0 0 0 0 1 1 0 1 0 0 1 0 1 12.3 Analisis
> #vektor peluang
> phiX<-(exp(a+b*X))/(1+exp(a+b*X))
> phiX
[1] 0.5630319 0.5599634 0.5506582 0.5629022 0.5475373 0.5614547 0.5457696
[8] 0.5639295 0.5470541 0.5528246 0.5663100 0.5517205 0.5520494 0.5455442
[15] 0.5500713 0.5594157 0.5568643 0.5563744 0.5628550 0.5680229 0.5476930
[22] 0.5539794 0.5564630 0.5641842 0.5594293 0.5547842 0.5645090 0.5494279
[29] 0.5671925 0.5495051 0.5543447 0.5514387 0.5480156 0.5659105 0.5489928
[36] 0.5522032 0.5461022 0.5451420 0.5510114 0.5538945 0.5622744 0.5582647
[43] 0.5468743 0.5515043 0.5609920 0.5467779 0.5594730 0.5545053 0.5627090
[50] 0.5542446 0.5589634 0.5543655 0.5498749
>
> #variabel respon (Y)
> Y<-rbinom(53,1,phiX)
> Y
[1] 1 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 0 0 0 1 0 0 1
[39] 0 0 0 0 1 0 0 1 0 0 1 1 1 0 0
>
> #a. dataframe (X dan Y)
> df9<-data.frame(X,Y)
> head(df9)
X Y
1 3.581353 1
2 3.327004 0
3 2.557947 0
4 3.570588 0
5 2.300689 1
6 3.450571 1
>
> #b. fungsi glm ~ analisis regresi logistik
> reglog<-glm(Y~X,family=binomial,data=df9)
>
> #c. summary analisis
> summary(reglog)
Call:
glm(formula = Y ~ X, family = binomial, data = df9)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3082 -1.0734 -0.9461 1.1943 1.4456
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.6656 1.5543 -1.072 0.284
X 0.5012 0.5182 0.967 0.333
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 73.001 on 52 degrees of freedom
Residual deviance: 72.052 on 51 degrees of freedom
AIC: 76.052
Number of Fisher Scoring iterations: 4
> Rsq<-1-(22.646/23.057)
> Rsq
[1] 0.01782539
>
> #d. SK odd ratio
> beta<-coef(reglog)
> OR_beta<-exp(beta)
> sk_OR<-exp(confint(reglog))
> cbind(beta,OR_beta,sk_OR)
beta OR_beta 2.5 % 97.5 %
(Intercept) -1.6655618 0.1890844 0.008082514 3.824300
X 0.5011674 1.6506472 0.603489459 4.708381
>
> #e. klasifikasi model
> yp_hat<-fitted(reglog)
> class<-table(yact,yp_hat > 0.5)
> class
yact FALSE TRUE
0 27 11
1 11 43 HASIL DAN PEMBAHASAN
3.1 Hasil regresi
Call: glm(formula = Y ~ X, family = binomial, data = df9)
Deviance Residuals: Min 1Q Median 3Q Max
-2.5019 0.2731 0.3197 0.3710 0.4627
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5807 3.4729 0.167 0.867 X 0.7606 1.1999 0.634 0.526
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 23.057 on 52 degrees of freedom
Residual deviance: 22.646 on 51 degrees of freedom AIC: 26.646
pvalue Intercept : 0.867
pvalue X : 0.526
3.1.1 Interpretasi :
- Untuk β0 Hipotesis : H0 : β0=0 H1 : β0≠0
Dapat dilihat nilai p-value pada intercept lebih besar dari α (p-value = 0.867 > α = 0.05), maka H0 diterima.
- Untuk β1 Hipotesis : H0 : β1=0 H1 : β1≠0
Dapat dilihat nilai p-value pada intercept lebih besar dari α (p-value = 0.526 > α = 0.05), maka H0 diterima. Dapat disimpulkan bahwa variabel X (IPK) secara nyata tidak mempengaruhi perolehan nilai akhir A (NA). Hal tersebut dapat dikarenakan terdapat faktor lain yang mempengaruhi nilai akhir mata kuliah wajib tertentu dari mahasiswa.
3.2 R Square
Rsq<-1-(22.646/23.057) Rsq 0.01782539
3.2.1 Interpretasi
Didapatkan informasi untuk menghitung Rsquare dari Null Deviance sebesar 23.057 dan Residual Deviance sebesar 22.646, dan dilanjutkan perhitungan yang diperoleh dari data IPK semester lalu hanya sekitar 17% menjelaskan peluang perolehan dari nilai akhir A.
3.3 Selang Kepercayaan bagi Odd Ratio
beta OR_beta 2.5 % 97.5 %
- (Intercept) beta = 0.5806512 || OR_beta = 1.787202 || 2.5 % = 0.001751145 || 97.5 % = 3011.08098
- X beta = 0.7605760 || OR_beta = 2.139508 || 2.5 % = 0.201286511 || 97.5 % = 28.92249
3.3.1 Interpretasi :
Intercept Pada IPK = 0: Peluang sukses mendapat nilai A 1.79 kali peluang gagal. Peluang sukses mendapat nilai A lebih besar daripada peluang gagal.
X (IPK) Ketika IPK naik satu satuan: Peluang sukses mendapat nilai A relatif terhadap peluang gagal, menjadi meningkat sebesar 2.14 kali
Selang Kepercayaan Selang kepercayaan bagi OR memuat nilai 1, memastikan H0 diterima bagi kedua parameter.
3.4 klasifikasi berdasarkan model hasil pendugaan
- yact TRUE
- yact = 0 TRUE = 38
- yact = 1 TRUE = 15
3.4.1 Interpretasi
Dari 38 amatan dengan Y=0, semua amatan diklasifikasikan dengan benar. Dari 15 amatan dengan Y=1, semua amatan diklasifikasikan dengan benar. Banyaknya kesalahan klasifikasi menjelaskan rendahnya R^2 model.
4 PENUTUP
4.1 Kesimpulan
Dapat disimpulkan bahwa variabel X (IPK) secara nyata tidak mempengaruhi perolehan nilai akhir A (NA). Dapat dilihat juga berdasarkan RSaquare yang diperoleh dari data IPK semester lalu hanya sekitar 17% menjelaskan peluang perolehan dari nilai akhir A. Hal tersebut dapat dikarenakan terdapat faktor lain yang mempengaruhi nilai akhir mata kuliah wajib tertentu dari mahasiswa dan juga data yang digunakan adalah data bangkitan, bukan data aktual pengamatan.
4.2 Saran
Model regresi dapat dengan mudah ditemukan menggunakan software R studio, tetapi dalam penggunaannya tetap memerlukan ketelitian peneliti untuk memilih uji yang akan dilakukan dan juga dalam menginput script yang akan digunakan. Dalam kasus regresi logisti, agar pengkalsifikasian ebih tepat dan kesimpulan yang diperoleh lebih tepat, sebaiknya digunakan data aktual berdasarkan hasil pengamatan langsun, bukan dengan menggunakan data bangkitan. Juga diperlukan berbagai packages yang perlu di install sebelum peneliti dapat melakukan uji menggunakan R Studio.
5 DAFTAR PUSTAKA
- Hosmer, D.W. & Lemeshow, S., 2000. Applied Logistic Regression. New York: John Wiley & Sons, Inc.
- Agresti, A., 1990. Categorical Data Analysis. New York: John Wiley & Sons, Inc.
- Arofah, Irvana, 2018, Analisis Persepsi Biaya Kuliah Perguruan Tinggi dengan Menggunakan Metode Regresi Logistik Ordinal, Jakarta : Jurnal Statistika dan Aplikasinya (JSA) Vol 1 No.1.
- Aunuddin 1989, Analisis Data, Bogor : PAU Ilmu Hayat IPB
- HADI, Sutrisno. Analisis regresi. Penerbit Andi, 2004.
6 Lampiran
``` R Console #sebaran U(-1,1) a<-runif(1, min=-1, max=1) a [1] 0.983174 #sebaran U(-1,1) b<-runif(1, min=-1, max=1) b [1] 0.748433 #nilai ipk (X) ipk<-runif(53, min=2.1, max=4) ipk [1] 2.811401 2.770881 2.726259 2.897116 3.196838 2.661167 2.795229 3.536380 2.979837 2.330167 3.762001 3.696263 2.195631 [14] 3.112601 3.480778 2.111660 3.861751 2.996549 2.808814 3.490446 3.133874 2.276107 3.655788 2.255722 2.898901 3.314470 [27] 2.456572 2.933860 3.129407 3.359003 2.376426 3.480477 3.363484 3.270863 2.549287 2.679723 3.560298 2.443475 2.675258 [40] 2.709913 2.109258 3.562024 3.060391 3.549207 2.731044 3.427940 2.103186 3.248599 3.292857 3.851989 2.940390 3.895186 [53] 3.583527 #variabel prediktor (X) X<-ipk X [1] 2.811401 2.770881 2.726259 2.897116 3.196838 2.661167 2.795229 3.536380 2.979837 2.330167 3.762001 3.696263 2.195631 [14] 3.112601 3.480778 2.111660 3.861751 2.996549 2.808814 3.490446 3.133874 2.276107 3.655788 2.255722 2.898901 3.314470 [27] 2.456572 2.933860 3.129407 3.359003 2.376426 3.480477 3.363484 3.270863 2.549287 2.679723 3.560298 2.443475 2.675258 [40] 2.709913 2.109258 3.562024 3.060391 3.549207 2.731044 3.427940 2.103186 3.248599 3.292857 3.851989 2.940390 3.895186 [53] 3.583527 #Y Aktual (1= Memperoleh nilai A dalam data aktual, 0= selain A) yact<-rbinom(53,1,0.3) yact [1] 0 0 1 0 1 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 1 1 1 1 0 0 0 0 1 1 #vektor peluang phiX<-(exp(a+bX))/(1+exp(a+bX)) phiX [1] 0.9563666 0.9550835 0.9536288 0.9589667 0.9669394 0.9514263 0.9558587 0.9741667 0.9613348 0.9386097 0.9780926 0.9770132 [13] 0.9325450 0.9648635 0.9730985 0.9284826 0.9796365 0.9617970 0.9562858 0.9732873 0.9653993 0.9362365 0.9763229 0.9353196 [25] 0.9590192 0.9696410 0.9438401 0.9600352 0.9652875 0.9706069 0.9405746 0.9730926 0.9707025 0.9686654 0.9474069 0.9520641 [37] 0.9746134 0.9433182 0.9519113 0.9530848 0.9283631 0.9746453 0.9635145 0.9744072 0.9537869 0.9720437 0.9280602 0.9681556 [49] 0.9691612 0.9794902 0.9602223 0.9801297 0.9750400 #variabel respon (Y) Y<-rbinom(53,1,phiX) Y [1] 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 #a. dataframe (X dan Y) df9<-data.frame(X,Y) head(df9) #b. fungsi glm ~ analisis regresi logistik reglog<-glm(Y~X,family=binomial,data=df9) #c. summary analisis summary(reglog)
Call: glm(formula = Y ~ X, family = binomial, data = df9)
Deviance Residuals: Min 1Q Median 3Q Max
-2.5019 0.2731 0.3197 0.3710 0.4627
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5807 3.4729 0.167 0.867 X 0.7606 1.1999 0.634 0.526
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 23.057 on 52 degrees of freedom
Residual deviance: 22.646 on 51 degrees of freedom AIC: 26.646
Number of Fisher Scoring iterations: 6
Rsq<-1-(22.646/23.057) Rsq [1] 0.01782539 #d. SK odd ratio beta<-coef(reglog) OR_beta<-exp(beta) sk_OR<-exp(confint(reglog)) Waiting for profiling to be done… cbind(beta,OR_beta,sk_OR) beta OR_beta 2.5 % 97.5 % (Intercept) 0.5806512 1.787202 0.001751145 3011.08098 X 0.7605760 2.139508 0.201286511 28.92249 #e. klasifikasi model yp_hat<-fitted(reglog) class<-table(yact,yp_hat > 0.5) class
yact TRUE 0 38 1 15