Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
> # install.packages("readr")
> # install.packages("generalhoslem")
> # install.packages("pscl")
> | # PENDAHULUAN |
|---|
| # TINJAUAN PUSTAKA |
| ## Statistika Deskriptif |
| Statistika Deskriptif merupakan metode yang berkaitan dengan pengumpulan, penyajian suatu data sehingga memberikan informasi yang berguna dan memudahkan dalam pemahamannya. Hasil dari statistika deskriptif dapat berupa ringkasan lima angka dan grafik. Salah satu grafik yang dapat digunakan yaitu diagram batang dan boxplot. |
| ## Regresi Logistik |
| ### Pengertian Regresi logistik |
| Regresi logistik merupakan bentuk khusus dari analisis regresi dengan peubah terikatnya (respon) bersifat kategori, kontinu atau gabungan antara keduanya. Berdasarkan tujuan analisis regresi, model regresi logistik dibagi dua, yaitu model regresi logistik biner dan model regresi multinomial.Pada logistik biner, variabel dependennya hanya memiliki 2 kategori, sedangkan pada logistik multinomial, variabel dependennya memiliki lebih dari 2 kategori. |
| ### Regresi Logistik Peubah Banyak |
| Model regresi logistik peubah banyak melibatkan lebih dari satu perubah (multivariat). Fokus utama dari pemikiran model logistik peubah banyak merupakan penafsiran model dan akan menguji kesignfikasikannya |
| ## Asumsi Multikolinearitas |
| pengecekan asumsi multikolinearitas digunakan untuk mengetahui apakah terdapat korelasi antar variabel independen. Model regresi yang baik seharusnya tidak terjadi korelasi antar variabel independen. Dalam ujinya, digunakan VIF. Jika nilai VIF>10, maka dapat dipastikan bahwa terdapat korelasi antar variabel independen |
| ## Uji Signfikasi Model |
| ### Uji Simultan Parameter Model |
| Pada uji simultan, akan digunakan uji rasio likelihood (uji G).Pada uji simultan tersebut digunakan untuk mengetahui seberapa berdampak variabel-variabel independen terhadap variabel dependen secara bersamaan. |
| ### Uji Parsial Parameter Model |
| Pada uji parsial, akan digunakan uji Wald. Uji parsial tersebut bertujuan untuk mengetahui seberapa berdampak masing-masing variabel independen terhadap variabel dependen. |
| ### Pemilihan Regresi Logistik terbaik |
| Dalam pembentukan model terbaik dalam model regresi logistik dapat dilakukan dengan cara memeriksa nilai statistik G dan statistik W. Model regresi terbaik dapat dicek pada nilai statistik G dan statistik W terkecil. |
| # SOURCE CODE |
| ## Library |
r > library(readr) > library(generalhoslem) > library(pscl)
Dalam proses analisis, dibutuhkan beberapa packages yang terpasang.
Packages yang dibutuhkan terdapat pada di atas. |
| ## Data |
r > reglog1<-read_csv("D:/Bismillah UB/Sems 4/KomStat/Praktikum/Laprak 2/Data mentah 3.csv") > head(reglog1) # A tibble: 6 × 6 No neonatal usia_ibu bb_bayi P1 P2 <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 0 30 0 0 1 2 2 0 30 0 0 0 3 3 0 35 0 0 1 4 4 0 41 0 0 0 5 5 0 22 0 0 0 6 6 0 29 1 0 1 > attach(reglog1) > Y<-reglog1$neonatal > X1<-reglog1$usia_ibu > X2<-reglog1$bb_bayi > X3<-reglog1$P1 > X4<-reglog1$P2
Tahap ini deklarasi data dilakukan dan pendefinisian variabel-variabel
dependen dan independen. Variabel dipenden ditunjukkan pada kematian
neonatal, sedangkan variabel independen ditunjukkan pada usia_ibu,
bb_bayi, P1 dan P2. |
Eksplorasi data dilakukan untuk mendeteksi pencilan pada data tersebut.
Pada kasus ini, variabel dengan data numerik yaitu X1 yang berisi usia
ibu. Variabel tersebut tidak dideteksi adanya pencilan.
> datalog<-data.frame(Y,X1,X2,X3,X4)
> str(datalog)
'data.frame': 325 obs. of 5 variables:
$ Y : num 0 0 0 0 0 0 0 0 0 0 ...
$ X1: num 30 30 35 41 22 29 24 34 32 38 ...
$ X2: num 0 0 0 0 0 1 1 0 0 0 ...
$ X3: num 0 0 0 0 0 0 0 0 0 0 ...
$ X4: num 1 0 1 0 0 1 0 0 0 1 ...Tahap ini membentuk frame data pada variabel-variabel yang dibutuhkan dalam analisis-analisis tersebut.
Dalam pengecekan asumsi ini, jika hasil VIF <= 10, maka tidak terjadi multikolinieritas antar variabel.
> model1 <- lm(X1~X2+X3+X4, data=datalog)
> summary(model1)
Call:
lm(formula = X1 ~ X2 + X3 + X4, data = datalog)
Residuals:
Min 1Q Median 3Q Max
-10.3907 -3.5901 -0.1224 2.8776 15.8776
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.1224 0.3736 67.244 <2e-16 ***
X2 1.2683 0.7223 1.756 0.0801 .
X3 11.0158 1.0582 10.410 <2e-16 ***
X4 7.1994 0.6995 10.292 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.163 on 321 degrees of freedom
Multiple R-squared: 0.3682, Adjusted R-squared: 0.3623
F-statistic: 62.35 on 3 and 321 DF, p-value: < 2.2e-16
> R2_1<-(1/(1-0.3682))
> R2_1
[1] 1.582779
>
> model2 <- lm(X2~X1+X3+X4, data=datalog)
> summary(model2)
Call:
lm(formula = X2 ~ X1 + X3 + X4, data = datalog)
Residuals:
Min 1Q Median 3Q Max
-0.32071 -0.22319 -0.18568 -0.04315 1.01686
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.013154 0.111596 0.118 0.90624
X1 0.007501 0.004272 1.756 0.08005 .
X3 -0.247551 0.093102 -2.659 0.00823 **
X4 -0.007986 0.062041 -0.129 0.89765
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3971 on 321 degrees of freedom
Multiple R-squared: 0.02665, Adjusted R-squared: 0.01756
F-statistic: 2.93 on 3 and 321 DF, p-value: 0.03378
> R2_2<-(1/(1-0.02665))
> R2_2
[1] 1.02738
>
> model3 <- lm(X3~X2+X1+X4, data=datalog)
> summary(model1)
Call:
lm(formula = X1 ~ X2 + X3 + X4, data = datalog)
Residuals:
Min 1Q Median 3Q Max
-10.3907 -3.5901 -0.1224 2.8776 15.8776
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.1224 0.3736 67.244 <2e-16 ***
X2 1.2683 0.7223 1.756 0.0801 .
X3 11.0158 1.0582 10.410 <2e-16 ***
X4 7.1994 0.6995 10.292 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.163 on 321 degrees of freedom
Multiple R-squared: 0.3682, Adjusted R-squared: 0.3623
F-statistic: 62.35 on 3 and 321 DF, p-value: < 2.2e-16
> R2_3<-(1/(1-0.3682))
> R2_3
[1] 1.582779
>
> model4 <- lm(X4~X2+X3+X1, data=datalog)
> summary(model4)
Call:
lm(formula = X4 ~ X2 + X3 + X1, data = datalog)
Residuals:
Min 1Q Median 3Q Max
-0.72082 -0.23837 -0.06607 0.10623 0.89947
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.692065 0.092667 -7.468 7.74e-13 ***
X2 -0.006464 0.050210 -0.129 0.898
X3 -0.554662 0.078811 -7.038 1.19e-11 ***
X1 0.034461 0.003348 10.292 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3572 on 321 degrees of freedom
Multiple R-squared: 0.2692, Adjusted R-squared: 0.2623
F-statistic: 39.41 on 3 and 321 DF, p-value: < 2.2e-16
> R2_4<-(1/(1-0.2692))
> R2_4
[1] 1.368363Dari keempat model uji multikolinieritas variabel independen, didapatkan bahwa seluruh model kurang dari 10, sehingga didapatkan bahwa keempat variabel tersebut tidak terdapat multikolinieritas antar variabel independen.
Tahap ini bentuk regresi linier logistik
Hipotesis: \[ H_0 : \beta_j = 0, \; j = 0,1 \\ H_1 : \beta_j \neq 0 \]
> pR2(reglog2)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-66.6651192 -83.0778580 32.8254777 0.1975585 0.0960683 0.2400186
> qchisq(0.95,4)
[1] 9.487729Dari uji simultan tersebut, dihasilkan bahwa nilai G2 lebih besar dari nilai chi square yang ditentukan yaitu 9.487729,sehingga tolak H0. Oleh karena itu, parameter-parameter tersebut berpengaruh secara simultan pada variabel dependen.
Hipotesis: \[ H_0 : \beta_j = 0 \\ H_1 : \beta_j \neq 0 \]
> summary(reglog2)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datalog)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.84995 1.19835 -2.378 0.0174 *
X1 -0.04374 0.04600 -0.951 0.3417
X2 2.63884 0.51309 5.143 2.7e-07 ***
X3 1.62110 1.01420 1.598 0.1100
X4 0.99841 0.62859 1.588 0.1122
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 166.16 on 324 degrees of freedom
Residual deviance: 133.33 on 320 degrees of freedom
AIC: 143.33
Number of Fisher Scoring iterations: 6Dari uji tersebut didapatkan bahwa terdapat dua parameter yang berpengaruh secara signifikan pada variabel dependen, yaitu intersep dan X2(bb_bayi). Hal ini disebabkan kedua parameter memiliki nilai-p yang lebih kecil dari alpha yang ditentukan, sehingga mendapatkan keputusan Tolak H0.
> summary(reglog2)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4, family = binomial, data = datalog)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.84995 1.19835 -2.378 0.0174 *
X1 -0.04374 0.04600 -0.951 0.3417
X2 2.63884 0.51309 5.143 2.7e-07 ***
X3 1.62110 1.01420 1.598 0.1100
X4 0.99841 0.62859 1.588 0.1122
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 166.16 on 324 degrees of freedom
Residual deviance: 133.33 on 320 degrees of freedom
AIC: 143.33
Number of Fisher Scoring iterations: 6
> Rsq<-1-(133.33/166.16)
> Rsq
[1] 0.1975806Dapat disimpulkan bahwa variabel-variabel independen tersebut dapat menggambarkan variabel dependen sebesar 19.76%, sisanya dipengaruhi oleh variabel lain yang belum bisa ditentukan.
> beta<-(coef(reglog2))
> beta
(Intercept) X1 X2 X3 X4
-2.84994535 -0.04373616 2.63884152 1.62110161 0.99840541
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X2 X3 X4
0.05784748 0.95720648 13.99697899 5.05865992 2.71395074
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -2.84994535 0.05784748
X1 -0.04373616 0.95720648
X2 2.63884152 13.99697899
X3 1.62110161 5.05865992
X4 0.99840541 2.71395074Hipotesis: \[ H_0 : layak \\ H_1 : \ tidak layak\ \]
> logitgof(datalog$Y,fitted(reglog2))
Hosmer and Lemeshow test (binary model)
data: datalog$Y, fitted(reglog2)
X-squared = 6.0763, df = 8, p-value = 0.6387Dari pengujian tersebut, didapatkan bahwa nilai p-value lebih besar dari alpha yang ditentukan yaitu 0.05, sehingga keputusan yaitu terima H0. Oleh sebab itu, model regresi logistik yang digunakan layak untuk digunakan.
Taksiran model regresi logistik dapat dituliskan dibawah ini \[ \hat{L} = -2.850 + (-0.0444 \cdot \text{X1}) + (2.638 \cdot X2) + (1.621 \cdot X3) + (0.998 \cdot X4) \] Berat badan bayi, berpengaruh terhadap kematian neonatal sedangkan usia ibu, dan paritas tidak berpengaruh terhadap kematian neonatal *Faktor-faktor yang mempengaruhi terjadinya kematian neonatal yaitu usia ibu, berat badan bayi, dan paritas. Faktor yang paling mempengaruhi terjadinya kematian neonatal yaitu berat badan bayi
Syamsinar. (2010). Regresi Logistik dan Aplikasinya Terhadap Kemation Neonatal. Skripsi. Universitas Islam Negeri Alauddin Makassar. Wibowo, W. 2001. Studi Perbandingan analisis Diskriminan dan Analisis Regresi Logistik untuk Pengelompokan Kategori, Posiding Seminar Nasional Statistika v. Surabaya: Jurusan Statistika FMIPA ITS.