Regresi Logistik dan Aplikasinya pada RStudio

Aisyah Salsabilla Nur

01/06/2024


Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
> # install.packages("readr")
> # install.packages("generalhoslem")
> # install.packages("pscl")
> 
# PENDAHULUAN
# TINJAUAN PUSTAKA
## Statistika Deskriptif
Statistika Deskriptif merupakan metode yang berkaitan dengan pengumpulan, penyajian suatu data sehingga memberikan informasi yang berguna dan memudahkan dalam pemahamannya. Hasil dari statistika deskriptif dapat berupa ringkasan lima angka dan grafik. Salah satu grafik yang dapat digunakan yaitu diagram batang dan boxplot.
## Regresi Logistik
### Pengertian Regresi logistik
Regresi logistik merupakan bentuk khusus dari analisis regresi dengan peubah terikatnya (respon) bersifat kategori, kontinu atau gabungan antara keduanya. Berdasarkan tujuan analisis regresi, model regresi logistik dibagi dua, yaitu model regresi logistik biner dan model regresi multinomial.Pada logistik biner, variabel dependennya hanya memiliki 2 kategori, sedangkan pada logistik multinomial, variabel dependennya memiliki lebih dari 2 kategori.
### Regresi Logistik Peubah Banyak
Model regresi logistik peubah banyak melibatkan lebih dari satu perubah (multivariat). Fokus utama dari pemikiran model logistik peubah banyak merupakan penafsiran model dan akan menguji kesignfikasikannya
## Asumsi Multikolinearitas
pengecekan asumsi multikolinearitas digunakan untuk mengetahui apakah terdapat korelasi antar variabel independen. Model regresi yang baik seharusnya tidak terjadi korelasi antar variabel independen. Dalam ujinya, digunakan VIF. Jika nilai VIF>10, maka dapat dipastikan bahwa terdapat korelasi antar variabel independen
## Uji Signfikasi Model
### Uji Simultan Parameter Model
Pada uji simultan, akan digunakan uji rasio likelihood (uji G).Pada uji simultan tersebut digunakan untuk mengetahui seberapa berdampak variabel-variabel independen terhadap variabel dependen secara bersamaan.
### Uji Parsial Parameter Model
Pada uji parsial, akan digunakan uji Wald. Uji parsial tersebut bertujuan untuk mengetahui seberapa berdampak masing-masing variabel independen terhadap variabel dependen.
### Pemilihan Regresi Logistik terbaik
Dalam pembentukan model terbaik dalam model regresi logistik dapat dilakukan dengan cara memeriksa nilai statistik G dan statistik W. Model regresi terbaik dapat dicek pada nilai statistik G dan statistik W terkecil.
# SOURCE CODE
## Library
r > library(readr) > library(generalhoslem) > library(pscl) Dalam proses analisis, dibutuhkan beberapa packages yang terpasang. Packages yang dibutuhkan terdapat pada di atas.
## Data
r > reglog1<-read_csv("D:/Bismillah UB/Sems 4/KomStat/Praktikum/Laprak 2/Data mentah 3.csv") > head(reglog1) # A tibble: 6 × 6 No neonatal usia_ibu bb_bayi P1 P2 <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 0 30 0 0 1 2 2 0 30 0 0 0 3 3 0 35 0 0 1 4 4 0 41 0 0 0 5 5 0 22 0 0 0 6 6 0 29 1 0 1 > attach(reglog1) > Y<-reglog1$neonatal > X1<-reglog1$usia_ibu > X2<-reglog1$bb_bayi > X3<-reglog1$P1 > X4<-reglog1$P2 Tahap ini deklarasi data dilakukan dan pendefinisian variabel-variabel dependen dan independen. Variabel dipenden ditunjukkan pada kematian neonatal, sedangkan variabel independen ditunjukkan pada usia_ibu, bb_bayi, P1 dan P2.

1 HASIL DAN PEMBAHASAN

1.1 Eksplorasi setiap variabel

> hist(Y)

> boxplot(X1)

> hist(X2)

> hist(X3)

> hist(X4)

Eksplorasi data dilakukan untuk mendeteksi pencilan pada data tersebut. Pada kasus ini, variabel dengan data numerik yaitu X1 yang berisi usia ibu. Variabel tersebut tidak dideteksi adanya pencilan.

1.2 Data framing

> datalog<-data.frame(Y,X1,X2,X3,X4)
> str(datalog)
'data.frame':   325 obs. of  5 variables:
 $ Y : num  0 0 0 0 0 0 0 0 0 0 ...
 $ X1: num  30 30 35 41 22 29 24 34 32 38 ...
 $ X2: num  0 0 0 0 0 1 1 0 0 0 ...
 $ X3: num  0 0 0 0 0 0 0 0 0 0 ...
 $ X4: num  1 0 1 0 0 1 0 0 0 1 ...

Tahap ini membentuk frame data pada variabel-variabel yang dibutuhkan dalam analisis-analisis tersebut.

1.3 Asumsi Multikolinearitas

Dalam pengecekan asumsi ini, jika hasil VIF <= 10, maka tidak terjadi multikolinieritas antar variabel.

> model1 <- lm(X1~X2+X3+X4, data=datalog)
> summary(model1)

Call:
lm(formula = X1 ~ X2 + X3 + X4, data = datalog)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.3907  -3.5901  -0.1224   2.8776  15.8776 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  25.1224     0.3736  67.244   <2e-16 ***
X2            1.2683     0.7223   1.756   0.0801 .  
X3           11.0158     1.0582  10.410   <2e-16 ***
X4            7.1994     0.6995  10.292   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.163 on 321 degrees of freedom
Multiple R-squared:  0.3682,    Adjusted R-squared:  0.3623 
F-statistic: 62.35 on 3 and 321 DF,  p-value: < 2.2e-16
> R2_1<-(1/(1-0.3682))
> R2_1
[1] 1.582779
> 
> model2 <- lm(X2~X1+X3+X4, data=datalog)
> summary(model2)

Call:
lm(formula = X2 ~ X1 + X3 + X4, data = datalog)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.32071 -0.22319 -0.18568 -0.04315  1.01686 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)   
(Intercept)  0.013154   0.111596   0.118  0.90624   
X1           0.007501   0.004272   1.756  0.08005 . 
X3          -0.247551   0.093102  -2.659  0.00823 **
X4          -0.007986   0.062041  -0.129  0.89765   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3971 on 321 degrees of freedom
Multiple R-squared:  0.02665,   Adjusted R-squared:  0.01756 
F-statistic:  2.93 on 3 and 321 DF,  p-value: 0.03378
> R2_2<-(1/(1-0.02665))
> R2_2
[1] 1.02738
> 
> model3 <- lm(X3~X2+X1+X4, data=datalog)
> summary(model1)

Call:
lm(formula = X1 ~ X2 + X3 + X4, data = datalog)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.3907  -3.5901  -0.1224   2.8776  15.8776 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  25.1224     0.3736  67.244   <2e-16 ***
X2            1.2683     0.7223   1.756   0.0801 .  
X3           11.0158     1.0582  10.410   <2e-16 ***
X4            7.1994     0.6995  10.292   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.163 on 321 degrees of freedom
Multiple R-squared:  0.3682,    Adjusted R-squared:  0.3623 
F-statistic: 62.35 on 3 and 321 DF,  p-value: < 2.2e-16
> R2_3<-(1/(1-0.3682))
> R2_3
[1] 1.582779
> 
> model4 <- lm(X4~X2+X3+X1, data=datalog)
> summary(model4)

Call:
lm(formula = X4 ~ X2 + X3 + X1, data = datalog)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.72082 -0.23837 -0.06607  0.10623  0.89947 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.692065   0.092667  -7.468 7.74e-13 ***
X2          -0.006464   0.050210  -0.129    0.898    
X3          -0.554662   0.078811  -7.038 1.19e-11 ***
X1           0.034461   0.003348  10.292  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3572 on 321 degrees of freedom
Multiple R-squared:  0.2692,    Adjusted R-squared:  0.2623 
F-statistic: 39.41 on 3 and 321 DF,  p-value: < 2.2e-16
> R2_4<-(1/(1-0.2692))
> R2_4
[1] 1.368363

Dari keempat model uji multikolinieritas variabel independen, didapatkan bahwa seluruh model kurang dari 10, sehingga didapatkan bahwa keempat variabel tersebut tidak terdapat multikolinieritas antar variabel independen.

1.4 Analisis Regresi Logistik Biner

> reglog2<-glm(Y~X1+X2+X3+X4,family=binomial,data=datalog)

Tahap ini bentuk regresi linier logistik

1.5 Uji signifikansi simultan

Hipotesis: \[ H_0 : \beta_j = 0, \; j = 0,1 \\ H_1 : \beta_j \neq 0 \]

> pR2(reglog2)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-66.6651192 -83.0778580  32.8254777   0.1975585   0.0960683   0.2400186 
> qchisq(0.95,4)
[1] 9.487729

Dari uji simultan tersebut, dihasilkan bahwa nilai G2 lebih besar dari nilai chi square yang ditentukan yaitu 9.487729,sehingga tolak H0. Oleh karena itu, parameter-parameter tersebut berpengaruh secara simultan pada variabel dependen.

1.6 Uji parsial parameter model

Hipotesis: \[ H_0 : \beta_j = 0 \\ H_1 : \beta_j \neq 0 \]

> summary(reglog2)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datalog)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.84995    1.19835  -2.378   0.0174 *  
X1          -0.04374    0.04600  -0.951   0.3417    
X2           2.63884    0.51309   5.143  2.7e-07 ***
X3           1.62110    1.01420   1.598   0.1100    
X4           0.99841    0.62859   1.588   0.1122    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 166.16  on 324  degrees of freedom
Residual deviance: 133.33  on 320  degrees of freedom
AIC: 143.33

Number of Fisher Scoring iterations: 6

Dari uji tersebut didapatkan bahwa terdapat dua parameter yang berpengaruh secara signifikan pada variabel dependen, yaitu intersep dan X2(bb_bayi). Hal ini disebabkan kedua parameter memiliki nilai-p yang lebih kecil dari alpha yang ditentukan, sehingga mendapatkan keputusan Tolak H0.

1.7 Koefesien Determinasi

> summary(reglog2)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datalog)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.84995    1.19835  -2.378   0.0174 *  
X1          -0.04374    0.04600  -0.951   0.3417    
X2           2.63884    0.51309   5.143  2.7e-07 ***
X3           1.62110    1.01420   1.598   0.1100    
X4           0.99841    0.62859   1.588   0.1122    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 166.16  on 324  degrees of freedom
Residual deviance: 133.33  on 320  degrees of freedom
AIC: 143.33

Number of Fisher Scoring iterations: 6
> Rsq<-1-(133.33/166.16)
> Rsq
[1] 0.1975806

Dapat disimpulkan bahwa variabel-variabel independen tersebut dapat menggambarkan variabel dependen sebesar 19.76%, sisanya dipengaruhi oleh variabel lain yang belum bisa ditentukan.

1.8 Odds Ratio

> beta<-(coef(reglog2))
> beta
(Intercept)          X1          X2          X3          X4 
-2.84994535 -0.04373616  2.63884152  1.62110161  0.99840541 
> OR_beta<-exp(beta)
> OR_beta
(Intercept)          X1          X2          X3          X4 
 0.05784748  0.95720648 13.99697899  5.05865992  2.71395074 
> cbind(beta,OR_beta)
                   beta     OR_beta
(Intercept) -2.84994535  0.05784748
X1          -0.04373616  0.95720648
X2           2.63884152 13.99697899
X3           1.62110161  5.05865992
X4           0.99840541  2.71395074

1.9 Uji Kelayakan Model

Hipotesis: \[ H_0 : layak \\ H_1 : \ tidak layak\ \]

> logitgof(datalog$Y,fitted(reglog2))

    Hosmer and Lemeshow test (binary model)

data:  datalog$Y, fitted(reglog2)
X-squared = 6.0763, df = 8, p-value = 0.6387

Dari pengujian tersebut, didapatkan bahwa nilai p-value lebih besar dari alpha yang ditentukan yaitu 0.05, sehingga keputusan yaitu terima H0. Oleh sebab itu, model regresi logistik yang digunakan layak untuk digunakan.

2 KESIMPULAN

Taksiran model regresi logistik dapat dituliskan dibawah ini \[ \hat{L} = -2.850 + (-0.0444 \cdot \text{X1}) + (2.638 \cdot X2) + (1.621 \cdot X3) + (0.998 \cdot X4) \] Berat badan bayi, berpengaruh terhadap kematian neonatal sedangkan usia ibu, dan paritas tidak berpengaruh terhadap kematian neonatal *Faktor-faktor yang mempengaruhi terjadinya kematian neonatal yaitu usia ibu, berat badan bayi, dan paritas. Faktor yang paling mempengaruhi terjadinya kematian neonatal yaitu berat badan bayi

3 DAFTAR PUSTAKA

Syamsinar. (2010). Regresi Logistik dan Aplikasinya Terhadap Kemation Neonatal. Skripsi. Universitas Islam Negeri Alauddin Makassar. Wibowo, W. 2001. Studi Perbandingan analisis Diskriminan dan Analisis Regresi Logistik untuk Pengelompokan Kategori, Posiding Seminar Nasional Statistika v. Surabaya: Jurusan Statistika FMIPA ITS.