Analisis Data Regresi Logistik

Mochamad Irfan Alfarisi

2-06-2023

Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

install.packages(“knitr”) install.packages(“rmarkdown”) install.packages(“prettydoc”) install.packages(“equatiomatic”)

1 PENDAHULUAN

1.1 Latar Belakang

Analisis Regresi merupakan suatu cara yang dapat digunakan untuk mengetahui hubungan sebuah variabel tak bebas dengan satu atau lebih variabel bebas. Analisis Regresi dapat digunakan untuk menganalisis data dan mengambil kesimpulan yang bermakna tentang hubungan ketergantungan variabel terhadap variabel lainnya. Berdasarkan jumlah variabel bebas, analisis regresi linier dibagi menjadi dua macam yaitu, analisis regresi sederhana dan analisis regresi berganda. Model regresi dapat diperoleh dengan melakukan estimasi terhadap parameter modelnya. Untuk menduga nilai parameter regresi ini biasanya digunakan Metode Kuadrat Terkecil(MKT). Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara dua atau lebih variabel. Metode regresi yang umum digunakan adalah metode regresi linier, yaitu salah satu metode regresi dengan melibatkan pencarian hubungan antara variabel independen dan variabel dependen dengan menggunakan persamaan garis lurus. Namun, terdapat metode regresi non-linier yang lebih kompleks untuk memodelkan hubungan yang tidak linier antara variabel. Analisis regresi juga dapat digunakan untuk mempelajari hubungan yang lebih kompleks dan tidak linier antara variabel. Analisis regresi sangat berguna dalam banyak bidang, seperti ekonomi, sosiologi, psikologi, dan ilmu alam. Dengan menggunakan analisis regresi, kita dapat memahami faktor-faktor yang mempengaruhi suatu fenomena, membuat prediksi berdasarkan pola hubungan yang ditemukan, dan mengambil keputusan yang lebih baik. Tujuan utama analisis regresi untuk memprediksi atau menjelaskan variabel dependen berdasarkan variabel independen.Dengan melakukan analisis regresi, langkah-langkah yang dapat dilakukan yaitu pengumpulan data, pemeriksaan asumsi regresi, pemilihan model regresi yang sesuai, dan penaksiran parameter model menggunakan teknik seperti metode kuadrat terkecil. Analisis regresi juga melibatkan pengujian hipotesis untuk mengevaluasi signifikansi variabel independen dalam menjelaskan variasi variabel dependen. Beberapa uji hipotesis yang digunakan, yaitu uji T, uji F, dan uji goodness of fit. Dengan menggunakan analisis regresi peneliti dapat mengidentifikasi hubungan yang mendasari data mereka, membuat prediksi yang berdasarkan pada model yang dibangun, dan mengambil keputusan yang informatif berdasarkan bukti data.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi

Analisis regresi merupakan salah satu analisis yang bertujuan untuk mengetahui pengaruh suatu variabel terhadap variabel lain. Model regresi yang paling sederhana adalah model regresi linier sederhana dengan bentuk persamaan :

𝑌=𝛽0+𝛽1𝑋+𝜀

dimana:

𝑌 = variabel prediktor

𝑋 = variabel bebas

𝛽0 = Intersep

𝛽1 = Koefisien regresi

𝜀 = galat

2.2 Analisis Regresi Logistik Biner

Regresi logistik adalah suatu metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen dengan variabel independen dengan variabel dependen biner atau kategori. Regresi logistik menggunakan fungsi logistik atau sigmoid untuk memodelkan probabilitas kejadian variabel dependen berdasarkan variabel independen. Dalam regresi logistik, variabel dependen adalah variabel biner yang bernilai 1 atau 0, yang mewakili kejadian atau tidak terjadinya kejadian tertentu. Variabel independen dapat berupa variabel kontinu atau kategorikal.

Regresi logistik dibagi menjadi regresi logistik biner, regresi logistik multinomial, dan regresi logistik ordinal. Model regresi logistik biner digunakan jika variabel responnya menghasilkan dua kategori bernilai 1 dan 0, sehingga mengikuti distribusi Bernoulli sebagai berikut:

𝑓(𝑦𝑖)=𝜋𝑖𝑦𝑖(1−𝜋𝑖)1−𝑦𝑖

dimana:

𝜋𝑖 = peluang kejadian ke-i

𝑦𝑖 = peubah acak ke-i yang terdiri dari 0 dan 1

Bentuk model regresi logistik dengan satu variabel predikt

𝜋(𝑥)=𝑒𝑥𝑝(𝛽0+𝛽1𝑥)/1+𝑒𝑥𝑝(𝛽0+𝛽1𝑥)

2.3 Uji Serentak

Uji serentak atau uji simultan digunakan dalam analisis regresi untuk mengevaluasi apakah kelompok variabel independen secara keseluruhan berkontribusi secara signifikan terhadap variabel dependen.

Hipotesis untuk uji ini adalah sebagai berikut:

𝐻0:𝛽1=𝛽2=⋯=𝛽𝑖=0

𝐻1:paling sedikit ada satu parameter 𝛽𝑖≠0

Statistik uji G atau Likelihood Ratio Test:

\[ G = -2 ln[ \frac{(\frac{n1}{n})^{n1} (\frac{n0}{n})^{n0}}{\Pi\pi_i^{yi}(1-\pi_i)^{1-yi} }] \]

dimana:
n1 = banyak observasi yang berkategori 1

n2 = banyak observasi yang berkategori 0

Statistik uji G mengikuti distribusi chi-square, sehingga untuk memperoleh keputusan dilakukan perbandingan dengan nilai X2 tabel dengan derajat bebas (db) = k-1, dimana k merupakan banyak variabel prediktor. Kriteria penolakan (tolak H0) jika nilai 𝐺>𝜒2(𝑑𝑏,𝛼) atau jika p-value < α.

2.4 Uji Parsial

Uji parsial digunakan dalam analisis regresi untuk mengevaluasi kontribusi individu dari masing-masing variabel independen terhadap variabel dependen. Uji parsial menguji apakah koefisien regresi dari variabel independen tertentu secara signifikan berbeda dari nol.

𝐻0:𝛽𝑖=0

𝐻1:𝛽𝑖≠0

Statistik uji Wald (W) : \[ W= \frac{\beta_i}{SE(\beta_i)} \]

dan

\[ SE(\beta_i)= \sqrt{\sigma^2(\beta_i)} \]

dimana

𝑆𝐸(𝛽̂𝑖) = dugaan galat baku untuk koefisien 𝛽̂𝑖

𝛽̂𝑖 = nilai dugaan untuk parameter (𝛽̂𝑖)

Rasio yang dihasilkan dari statistik uji akan mengikuti sebaran normal baku, sehingga untuk memperoleh keputusan dilakukan perbandingan dengan distribusi normal baku (Z). Kriteria penolakan (tolak 𝐻0) jika nilai 𝑊>𝑍𝛼/2 atau 𝑝−𝑣𝑎𝑙𝑢𝑒<𝛼.

3 SOURCE CODE

3.1 Library

> library(readr)
> library(generalhoslem)
> library(pscl)

3.2 Data

> lulus = c(0,0,0,0,0,0,0,0,0,1,0,0,0,1,1,1,1,1,1,1,0,0,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1)
> jam = c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4)
> Y <- lulus
> X1 <- jam
> str(Y)
 num [1:40] 0 0 0 0 0 0 0 0 0 1 ...
> 
> #membentuk data frame
> data_log<-data.frame(X1,Y)
> View(data_log)
> str(data_log)
'data.frame':   40 obs. of  2 variables:
 $ X1: num  1 1 1 1 1 1 1 1 1 1 ...
 $ Y : num  0 0 0 0 0 0 0 0 0 1 ...

Keterangan Y = Kelulusan mahasiswa (1 = Lulus, 0 = tidak lulus)

X1 = Lama belajar seorang mahasiswa, jika 1 = waktu belajar selama 1 jam, 2 = waktu belajar selama 2 jam, 3 = waktu belajar selama 3 jam, 4 = waktu belajar selama 4 jam.

3.3 Analisis Regresi Logistik

> reglog<-glm(Y~X1,family=binomial,data=data_log)

3.4 Uji Signifikansi Keseluruhan Model

> pR2(reglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-18.9036205 -26.4625295  15.1178181   0.2856457   0.3147321   0.4289665 
> qchisq(0.95,2)
[1] 5.991465

3.5 Uji Parsial Parameter Model

> summary(reglog)

Call:
glm(formula = Y ~ X1, family = binomial, data = data_log)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  -2.7137     1.0315  -2.631  0.00852 **
X1            1.4030     0.4454   3.150  0.00163 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 52.925  on 39  degrees of freedom
Residual deviance: 37.807  on 38  degrees of freedom
AIC: 41.807

Number of Fisher Scoring iterations: 5

3.6 R Square

> Rsq<-1-(111.33/137.99)
> Rsq
[1] 0.1932024

3.7 Odds Ratio

> beta<-(coef(reglog))
> beta
(Intercept)          X1 
  -2.713722    1.402962 
> OR_beta<-exp(beta)
> OR_beta
(Intercept)          X1 
 0.06628962  4.06723024 
> cbind(beta,OR_beta)
                 beta    OR_beta
(Intercept) -2.713722 0.06628962
X1           1.402962 4.06723024

3.8 Membentuk Klasifikasi

> yp_hat<-fitted(reglog)
> data_log$yp_hat<-yp_hat
> data_log
   X1 Y    yp_hat
1   1 0 0.2123597
2   1 0 0.2123597
3   1 0 0.2123597
4   1 0 0.2123597
5   1 0 0.2123597
6   1 0 0.2123597
7   1 0 0.2123597
8   1 0 0.2123597
9   1 0 0.2123597
10  1 1 0.2123597
11  2 0 0.5230343
12  2 0 0.5230343
13  2 0 0.5230343
14  2 1 0.5230343
15  2 1 0.5230343
16  2 1 0.5230343
17  2 1 0.5230343
18  2 1 0.5230343
19  2 1 0.5230343
20  2 1 0.5230343
21  3 0 0.8168522
22  3 0 0.8168522
23  3 1 0.8168522
24  3 1 0.8168522
25  3 1 0.8168522
26  3 1 0.8168522
27  3 1 0.8168522
28  3 1 0.8168522
29  3 1 0.8168522
30  3 1 0.8168522
31  4 0 0.9477538
32  4 1 0.9477538
33  4 1 0.9477538
34  4 1 0.9477538
35  4 1 0.9477538
36  4 1 0.9477538
37  4 1 0.9477538
38  4 1 0.9477538
39  4 1 0.9477538
40  4 1 0.9477538
> class<-table(data_log$Y,data_log$yp_hat>0.5)
> class
   
    FALSE TRUE
  0     9    6
  1     1   24

3.9 Uji Kelayakan Model

> logitgof(data_log$Y,fitted(reglog))

    Hosmer and Lemeshow test (binary model)

data:  data_log$Y, fitted(reglog)
X-squared = NaN, df = 2, p-value = NA

Data dibangkitkan dengan cara simulasi…. Function rnorm digunakan untuk…. argument yang diisikan dalam function adalah…. Argument ini digunakan untuk…

4 HASIL DAN PEMBAHASAN

4.1 Model Logit

Berdasarkan hasil analisis diatas, model logit yang dibentuk sebagai berikut

\[ Logit[\hat{\pi}(X)] = -2,7137 + 1,4030X1 \]

Interpretasi:
Karena 𝛽1 bernilai positif , maka setiap kenaikan 1 satuan X1 (waktu lama belajar), akan meningkatkan peluang sebesar 1,4030 pada tingkat kelulusan seorang mahasiswa.

4.2 Uji Serentak (Simultan)

Statistik uji yang diperoleh berdasarkan uji simultan diatas:

15.1178181

Keputusan Karena statistik uji lebih dari alpha, maka tolak H0 Interpretasi: Dengan taraf nyata 5%, dapat dikatakan bahwa terdapat pengaruh antara lama waktu belajar terhadap tingkat kelulusan seorang mahasiswa.

4.3 Uji Parsial

Nilai p yang diperoleh berdasarkan output diatas:

0.00163

Keputusan: Karena nilai-p kurang dari alpha maka tolak H0 Interpretasi: Dengan taraf nyata 5%, dapat dikatakan bahwa lama waktu belajar memberi pengaruh terhadap tingkat kelulusan seorang mahasiswa.

4.4 R Square

Rsq

Interpretasi: Lama waktu belajar memberi pengaruh 28,56% terhadap tingkat kelulusan seorang mahasiswa.

4.5 Odds Ratio

Odds ratio yang diperoleh:

OR_beta

Interpretasi: Jika lama waktu belajar naik 1 kategori, maka kecendrungan seorang lulus meningkat 4,06723024 kali. Semakin lama waktu belajar seorang mahasiswa maka potensi lulus semakin meningkat

4.6 Klasifikasi Model

Klasifikasi model yang diperoleh:

Kelas

Interpretasi - Dari 15 amatan Y=0 yang dihasilkan, hanya 6 amatan yang terklasifikasi sebagai benar - Dari 25 amatan Y=1 yang dihasilkan, 24 amatan yang terklarifikasi sebagai benar

5 KESIMPULAN

Berdasarkan hasil analisis regresi logistik diatas, sudah cukup bukti bahwa lama waktu belajar seorang mahasiswa cukup berpengaruh terhadap tingkat kelulusan seorang mahasiswa yang berarti bahwa seorang mahasiswa harus memiliki waktu yang sesuai untuk mengetahui seberapa penting peluang kelulusan mahasiswa.

6 DAFTAR PUSTAKA

Sumber data: Sihotang, S. F. (2023). ANALISIS REGRESI LOGISTIK BINER UNTUK MEMPREDIKSI PROBABILITAS KELULUSAN UJIAN AKHIR SEMESTER MAHASISWA YANG MENGAMBIL MATA KULIAH MATEMATIKA FARMASI. Journal of Mathematics Education and Science, 204-211.

Adriani, Y. (2017). Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Indeks Prestasi Kumulatif (IPK) Mahasiswa FMIPA Universitas Sam Ratulangi Manado. JdC, 57-62.