Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("tinytext")
> # install.packages("prettydoc")
> # install.packages("modEvA")
> # install.packages("cars")
> # install.packages("carData")
> # install.packages("generalhoslem")
> # install.packages("pscl")
> # install.packages("ResourceSelection")
> # install.packages("Mass")
> # install.packages("terra")1 Bab I : Pendahuluan
1.1 Latar Belakang
Dalam kehidupan sehari-hari, pemanfaatan model regresi logistik dapat diterapkan secara luas. Regresi logistik sendiri dapat dibagi 2 yakni Regresi Logistik Biner dan Regresi Logistik Ordinal. Dalam laporan praktikum kali ini, penulis mendapatkan data bervariabel respon “Ya” dan “Tidak” sehingga analisis regresi biasa maupun ordinal tidak bisa digunakan untuk memodelkan hubungan antar variabel, maka pendekatan yang digunakan ialah analisis regresi logistik biner.
Data yang digunakan ialah data dari Tugas Akhir oleh Dewi Lestari, Program Studi Matematika, Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau berjudul “ANALISIS REGRESI LOGISTIK BINER UNTUK MENENTUKAN FAKTOR-FAKTOR YANG MEMPENGARUHI HIPERKOLESTEROLEMIA (Studi Kasus: Kota Pekanbaru)”. Tugas Akhir ini memiliki data sekunder yang diperoleh dari Dinas Kesehatan Kota Pekanbaru dengan cara screening pasien. Penulis akan membahas mengenai regresi logistik biner dalam konsep dasar, penerapan, hingga komputasinya.
1.2 Rumusan Masalah
Berdasarkan latar belakang, penulis merumuskan sebuah masalah dalam laporan praktikum ini yaitu:
- Bagaimana memodelkan data masalah menggunakan regresi logistik biner?
- Apa saja faktor-faktor yang mempengaruhi masalah berdasarkan data?
- Bagaimana kesimpulan yang dapat diambil?
1.3 Tujuan Masalah
Berdasarkan rumusan masalah, penulis merumuskan sebuah masalah dalam laporan praktikum ini yaitu:
- Memberikan informasi mengenai pemodelan data masalah menggunakan regresi logistik biner
- Memberikan informasi mengenai faktor-faktor yang mempengaruhi masalah berdasarkan data
- Memberikan informasi mengenai kesimpulan yang dapat diambil
1.4 Manfaat Praktikum
Manfaat yang ingin dicapai dari laporan praktikum ini ialah
- Bagi Penulis
Dapat mengaplikasikan metode analisis regresi logistik terutama regresi logistik biner pada data kasus nyata serya melihat faktor faktor yang mempengaruhi data terhadap masalah
- Bagi Pembaca
Menambah wawasan bagi pembaca dan dapat dijadikan bahan referensi untuk penelitian, laporan praktikum, maupun sumber belajar bagi mahasiswa pada umumnya
2 Bab II : Tinjauan Pustaka
2.1 Statistika Deskriptif
Statistika deskriptif merupakan metode metode dalam pengumpulan serta penyajian data sehingga data dapat dikenali lebih menarik dan informatif. Model statistik deskriptif ialah tidak ada unsur probability atau kemungkinan, semua angka pasti sehingga statistika deskriptif dapat disajikan dalam bentuk tabel, histogram, diagram, grafik, bentuk lainnya.
Dalam statistika deskriptif terdapat dua ukuran yaitu ukuran pemusatan data dan ukuran penyebaran data (Walpole, 1995). Ukuran pemusatan data dapat berupa rata-rata (mean), median, modus dan quartil sedangkan ukuran penyebaran data dapat meliputi rentang, varian, standar deviasi dan jangkauan antar kuartil (Walpole, 1995).
2.2 Regresi Logistik Biner
Analisis regresi merupakan analisis yang menjelaskan keterkaitan hubungan antara variabel respon serta variabel predictor dan satu variabel respon. Regresi itu merupakan Model Regresi Sederhana, namun jika ada lebih dari satu variabel prediktor ataupun respon disebut Model Regresi Berganda. Pengembangan model statistik mendapatkan regresi khusus dimana dalam pemodelannya, variabel respom bersifat kategorik skala nominal maupun ordinal yang disebut Model Regresi Logistik (Varamita, 2017). Dalam pengembangannya lagi terdapat pemodelan regresi dimana suatu kejadian dengan variabel respon bertipe biner dimana ada 2 kategori pilihan yakni sukses atau gagal dimana notasi yang dipakai biasanya Y = 0 (Gagal) dan Y = 1 (Sukses). Maka dengan ini variabel Y mengikuti distribusi Bernoulli dengan fungsi kepekatan peluang sebagai berikut:
\[ f(y_i) = \pi_i^{y_i}(1 - \pi_i)^{1-y_i} \]
di mana:
\(P(X = x)\) adalah peluang bahwa variabel acak Bernoulli (\(X\)) menghasilkan nilai \(x\).
\(p\) adalah probabilitas keberhasilan dalam satu percobaan.
\(x\) adalah hasil percobaan, yang dapat berupa 0 atau 1.
Distribusi yang digunakan dalam regresi logistik biner adalah distribusi Bernoulli (Agresti, 1990). Model regresi logistik biner diasumsikan saling bebas dimana variabel biner memiliki sebaran binomial. Persamaan umum dilambangkan sebagai berikut:
\[ \pi(x)=\frac{\exp(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p})}{1+\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p}} \]
Dimana:
\(\pi(x)\) adalah peluang kejadian sukses dengan nilai probabilitas \(0 \leq \pi(x) \leq 1\).
\(\beta_0\) adalah intersept (bilangan konstan).
\(\beta_1, \ldots, \beta_p\) adalah parameter regresi logistik.
\(x_1, \ldots, x_p\) adalah nilai-nilai peubah bebas.
\(p\) adalah jumlah variabel prediktor.
Dikarenakan nilai persamaan diatas meripakan persamaan non linier, maka perlu diadakan trasnformasi logit sehingga didapatkan fungsi logit g(x). Model regresi logistik biner memiliki persamaan dengan sebaran binom sebagai berikut:
\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = \beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p} \]
Dimana:
\(g(x)\) adalah fungsi logit.
\(\pi(x)\) adalah peluang kejadian sukses dengan nilai probabilitas \(0 \leq \pi(x) \leq 1\).
2.3 Asumsi Multikolinieritas
Asumsi multikolinearitas tidak boleh dilanggar karena dapat memberikan efek yang fatal yaitu model menjadi non identified yang berarti parameter dalam model tidak dapat diestimasi dan keluaran dalam bentuk jalur tidak dapat ditampilkan, atau jika parameter berhasil diestimasi dan keluaran diagram jalur berhasil ditampilkan tetapi hasilnya akan bias. Metode untuk menguji adanya multikoliniearitas dapat dilihat dari nilai tolerance value atau variance inflation factor (VIF) dengan rumus:
\[ VIF = 1/Tolerance \]
atau
\[ Tolerance = 1/(1-R^2) \]
Untuk batas tolerance value adalah 0,10 atau bernilai VIF 10, jika VIF lebih dari 10 dan tolerance value lebih dari 0,10 maka terjadi multikolinieritas tinggi, begitu juga sebaliknya jika tolerance value kurang dari 0,10 dan nilai VIF kurang dari 10, maka asumsi multikolinieritas terpenuhi. Bentuk pemodelan regresi yang baik memiliki VIF disekitar angka 1 dan mempunyai tolerance value mendekati 1 (Santoso, 2012).
2.4 Uji Signifikansi
Uji signifikansi parameter model regresi digunakan untuk mengetahui variabel prediktor secara signifikan berpengaruh terhadap variabel respon atau tidak. Uji ini dibagi dua yakni:
2.4.1 Uji Signifikansi Parsial
Uji ini dilakukan dengan menguji secara individu tiap variabel prediktor. Tujuan utamanya yakni untuk mengetahui pengaruh antara variabel prediktor masing masing terhadap variabel respon. Uji Signifikansi Parsial menggunakan Uji Wald sebagai statistik ujinya, dengan rumus sebagai berikut:
\[ w = \frac{{\beta_j}}{{SE(\beta_j)}} \]
Dimana:
\(w\) adalah rasio \(\beta_j\) dibagi dengan \(SE(\beta_j)\).
\(\beta_j\) adalah koefisien regresi yang terkait dengan prediktor \(x_j\).
\(SE(\beta_j)\) adalah standar error dari koefisien regresi \(\beta_j\).
2.4.2 Uji Signifikansi Simultan
Uji ini dilakukan untuk menguji secara keseluruhan variabel prediktor . Tujuan utamanya yakni untuk mengetahui pengaruh antara seluruh variabel prediktor terhadap variabel respon. Uji Signfikansi Simultan menggunakan uji rasio Likelihood sebagai statistik ujinya, dengan rumus sebagai berikut:
\[ G = -2 \log\left(\frac{{L_0}}{{L_1}}\right) \]
Dimana:
\(G\) adalah nilai uji signifikansi simultan.
\(L_0\) adalah likelihood model terbatas (model dengan variabel terbatas).
\(L_1\) adalah likelihood model lengkap (model dengan semua variabel).
2.5 Odds Ratio (Interpretasi Koefisien Parameter)
Interpretasi Koefisien Parameter ialah penentuan hubungan fungsional antarabariabel respon dan prediktor dan pendefinisian setiap perubahan variabel respon yang disebabkan variabel prediktor. Interpretasi koefisien parameter dapat dilihat pada tabel berikut:
Interpretasi Koefisien Parameter berkaitan dengan Odds Ratio (OR) atau rasio kecenderungan, diamana ia merupakan angka kecenderungan yang didefinisikan sebagai rasio antara jumlah individu yang mengalami peristiwa dengan yang tidak. Berikut merupakan rumus bagi Odds Ratio:
\[ \psi = \frac{\pi(1)/[1-\pi(1)]}{\pi(0)/[1-\pi(0)]} \]
2.6 Uji Kesesuaian Model
Uji Kesesuaian Model atau yang biasa disebut Goodness of fit adalah uji untuk menilai seberapa baik model regresi yang dihasilkan untuk menjelaskan atau merepresentasikan data yang diamati. Kesesuaian model pada Goodness of fit dapat dilihat melalui tabel Hosmer and Lemeshow Test. Menurut Peeters, etc (2012) uji yang digunakan untuk menilai kesesuaian model pada regresi logistik ialah membandingkan frekuensi yang diamati, Adapun statistik ujinya yakni:
\[ C = \sum_j \frac{{(o_j - n_j\pi_j)^2}}{{n_j\pi_j(1-\pi_j)}} \]
2.7 Ketepatan Klasifikasi
Prosedur ini bertujuan untuk mengetahui seberapa layak atau benar tidaknya suatu data klasifikasi. Prosedur klasifikasi yang digunakan dalam regresi logistik ialah apparent error rate (APER). Nilai APER sendiri menyatakan bahwa proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi (Johnson & Wichern, 1992). Untuk menghitungnya, akan lebih mudah jika menggunakan tabel silang antara hasil observasi. Tabel silang atau tabel ketetapan klasifikasi merupakan tabel frekuensi dua arah antara variabel respon dan prediktor. Rumus perhitungannya sebagai berikut:
\[ \text{Ketepatan Klasifikasi} = \frac{{\text{Jumlah Prediksi Benar}}}{{\text{Jumlah Total Data}}} \]
\[ APER = \frac{{n_{12} + n_{21}}}{{n_{11} + n_{12} + n_{21} + n_{22}}} \]
Ketepatan Klasifikasi = 100% - APER(%)
3 Bab III : Data
3.1 Variabel
3.2 Tabel Data
> # Inisiasi Data
> library(readxl)
> setwd("C:/Users/ASUS/Documents")
> data <- read_excel("datapasiendinas.xlsx")
> str(data)
tibble [30 x 10] (S3: tbl_df/tbl/data.frame)
$ Hiperkolesterolemia: num [1:30] 1 0 1 0 1 1 1 0 1 1 ...
$ Umur : num [1:30] 2 2 2 3 4 2 2 2 2 0 ...
$ Jenis_Kelamin : num [1:30] 0 0 0 0 1 1 0 1 0 0 ...
$ Genetik : num [1:30] 1 1 1 1 1 1 1 1 1 1 ...
$ Merokok : num [1:30] 1 1 1 1 0 1 0 0 1 1 ...
$ Aktifitas_Fisik : num [1:30] 1 1 1 1 0 1 0 0 1 0 ...
$ Alkohol : num [1:30] 1 1 1 1 1 1 1 1 1 1 ...
$ Buah_Sayur : num [1:30] 1 1 1 1 1 1 0 0 1 0 ...
$ Indeks_Massa : num [1:30] 0 0 0 0 0 0 0 1 1 1 ...
$ Obesitas : num [1:30] 0 0 0 1 1 1 0 0 0 0 ...
>
> Y <- data$Hiperkolesterolemia
> X1 <- data$Umur
> X2 <- data$Jenis_Kelamin
> X3 <- data$Genetik
> X4 <- data$Merokok
> X5 <- data$Aktifitas_Fisik
> X6 <- data$Alkohol
> X7 <- data$Buah_Sayur
> X8 <- data$Indeks_Massa
> X9 <- data$Obesitas
>
> # Buat Data Frame
> data1 <- data.frame(Y,X1,X2,X3,X4,X5,X6,X7,X8,X9)
> data1
Y X1 X2 X3 X4 X5 X6 X7 X8 X9
1 1 2 0 1 1 1 1 1 0 0
2 0 2 0 1 1 1 1 1 0 0
3 1 2 0 1 1 1 1 1 0 0
4 0 3 0 1 1 1 1 1 0 1
5 1 4 1 1 0 0 1 1 0 1
6 1 2 1 1 1 1 1 1 0 1
7 1 2 0 1 0 0 1 0 0 0
8 0 2 1 1 0 0 1 0 1 0
9 1 2 0 1 1 1 1 1 1 0
10 1 0 0 1 1 0 1 0 1 0
11 1 2 1 1 1 0 1 0 1 0
12 1 0 1 1 1 1 1 1 1 1
13 1 0 0 1 1 1 1 1 1 0
14 1 2 1 1 0 1 1 1 0 1
15 1 0 1 1 0 1 1 1 0 0
16 1 0 1 1 0 1 1 1 0 1
17 1 0 0 1 1 1 1 1 0 1
18 1 1 1 1 0 1 1 1 0 0
19 1 1 1 1 0 1 1 1 0 0
20 1 2 1 1 0 1 1 1 0 0
21 1 1 1 1 0 1 1 1 0 1
22 1 1 0 0 1 1 1 1 0 0
23 0 0 1 1 1 0 1 0 1 0
24 1 1 0 0 1 1 1 0 1 0
25 0 1 0 0 1 0 1 0 1 0
26 1 1 1 1 1 1 1 0 1 1
27 0 1 0 1 1 0 1 0 0 1
28 1 1 1 1 1 1 0 0 0 0
29 1 0 0 1 1 0 1 0 0 0
30 1 1 0 1 1 0 1 0 0 14 Bab IV : Hasil dan Pembahasan
4.1 Statistika Deskriptif
> #Statistika Deskriptif
> summary(data)
Hiperkolesterolemia Umur Jenis_Kelamin Genetik
Min. :0.0 Min. :0.000 Min. :0.0 Min. :0.0
1st Qu.:1.0 1st Qu.:0.250 1st Qu.:0.0 1st Qu.:1.0
Median :1.0 Median :1.000 Median :0.5 Median :1.0
Mean :0.8 Mean :1.233 Mean :0.5 Mean :0.9
3rd Qu.:1.0 3rd Qu.:2.000 3rd Qu.:1.0 3rd Qu.:1.0
Max. :1.0 Max. :4.000 Max. :1.0 Max. :1.0
Merokok Aktifitas_Fisik Alkohol Buah_Sayur
Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0
1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:1.0000 1st Qu.:0.0
Median :1.0000 Median :1.0000 Median :1.0000 Median :1.0
Mean :0.6667 Mean :0.6667 Mean :0.9667 Mean :0.6
3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.0
Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0
Indeks_Massa Obesitas
Min. :0.0000 Min. :0.0000
1st Qu.:0.0000 1st Qu.:0.0000
Median :0.0000 Median :0.0000
Mean :0.3333 Mean :0.3667
3rd Qu.:1.0000 3rd Qu.:1.0000
Max. :1.0000 Max. :1.0000 Dengan perhitungan dari function summary(), didapati berbagai statistika deskriptif dari setiap variabel (respon dan prediktor). Setiap variabel dapat ditemukan hasil dari nilai paling rendah (min), paling tinggi (max), rata-rata(mean), kuartil (bawah dan atas), serta nilai tengah (median).
4.2 Asumsi Multikolinieritas
> #Uji Multikolinieritas
> modelX1 <- lm(X1~X2+X3+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X1 <- 1 / (1 - summary(modelX1)$r.squared)
> modelX2 <- lm(X2~X1+X3+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X2 <- 1 / (1 - summary(modelX2)$r.squared)
> modelX3 <- lm(X3~X1+X2+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X3 <- 1 / (1 - summary(modelX3)$r.squared)
> modelX4 <- lm(X4~X1+X2+X3+X5+X6+X7+X8+X9, data=data1)
> vif_X4 <- 1 / (1 - summary(modelX4)$r.squared)
> modelX5 <- lm(X5~X1+X2+X3+X4+X6+X7+X8+X9, data=data1)
> vif_X5 <- 1 / (1 - summary(modelX5)$r.squared)
> modelX6 <- lm(X6~X1+X2+X3+X4+X5+X7+X8+X9, data=data1)
> vif_X6 <- 1 / (1 - summary(modelX6)$r.squared)
> modelX7 <- lm(X7~X1+X2+X3+X4+X5+X6+X8+X9, data=data1)
> vif_X7 <- 1 / (1 - summary(modelX7)$r.squared)
> modelX8 <- lm(X8~X1+X2+X3+X4+X5+X6+X7+X9, data=data1)
> vif_X8 <- 1 / (1 - summary(modelX8)$r.squared)
> modelX9 <- lm(X9~X1+X2+X3+X4+X5+X6+X7+X8, data=data1)
> vif_X9 <- 1 / (1 - summary(modelX9)$r.squared)
> VIF <- data.frame(vif_X1,vif_X2,vif_X3,vif_X4,vif_X5,vif_X6,vif_X7,vif_X8,vif_X9)
> VIF
vif_X1 vif_X2 vif_X3 vif_X4 vif_X5 vif_X6 vif_X7 vif_X8
1 1.173265 2.478437 1.31128 2.483369 3.257377 1.937673 4.127969 2.075759
vif_X9
1 1.362919Perhitungan VIF atau Variance Inflation Factors perlu dilakukan sebelum membentuk model regresi logistik biner. Perhitungan ini dilakukan pada setiap variabel prediktor. Berdasar Function diatas, nilai VIF pada masing masing variabel prediktor menghasilkan nilai kurang daari 10, yang artinya masing masing variabel prediktor tidak terjadi multikolinieritas antar variabel prediktor atau tidak saling berkorelasi. Sehingga data pasien yang berupa faktor faktor yang mempengaruhi hiperkolestrilemia dapat digunakan.
4.3 Model Regresi Logistik Biner
> #Model Regresi Logistik
> modelreglog <- glm(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9,family = "binomial", data=data1)
> summary(modelreglog)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9,
family = "binomial", data = data1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8571 0.0922 0.2820 0.7222 1.4951
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.683e+01 2.400e+03 0.007 0.994
X1 -8.588e-01 7.399e-01 -1.161 0.246
X2 4.678e-01 1.545e+00 0.303 0.762
X3 2.379e-01 1.752e+00 0.136 0.892
X4 -1.740e+00 1.908e+00 -0.912 0.362
X5 1.629e+00 1.756e+00 0.928 0.353
X6 -1.424e+01 2.400e+03 -0.006 0.995
X7 5.264e-01 2.066e+00 0.255 0.799
X8 -5.619e-01 1.596e+00 -0.352 0.725
X9 7.096e-03 1.389e+00 0.005 0.996
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 30.024 on 29 degrees of freedom
Residual deviance: 23.211 on 20 degrees of freedom
AIC: 43.211
Number of Fisher Scoring iterations: 15Dengan perhitungan dari function glm(), didapatkan model regresi logistik sebagai berikut:
\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = 1,683-0,8588X_{1}+0,4678X_{2}+0,2379X_{3}-1,740X_{4}1.629X_{5}-1,424X_{6}+0,5264X_{7}-0,5619X_{8}+0,007096X_{9} \]
Interpretasi parameter dapat dilihat yakni sebagai berikut
Ketika semua variabel bernilai 0 maka kejadian terjadinya Hiperkolesterolemia adalah sebesar 1,683
Ketika variabel X1 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,8588
Ketika variabel X2 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,4678
Ketika variabel X3 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,2379
Ketika variabel X4 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 1,740
Ketika variabel X5 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 1,629
Ketika variabel X6 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,1424
Ketika variabel X7 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,5264
Ketika variabel X8 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,5619
Ketika variabel X9 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,007096
4.4 Uji Signifikansi
4.4.1 Uji Signifikansi Parsial
> #Uji Parsial
> summary(modelreglog)
Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9,
family = "binomial", data = data1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8571 0.0922 0.2820 0.7222 1.4951
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.683e+01 2.400e+03 0.007 0.994
X1 -8.588e-01 7.399e-01 -1.161 0.246
X2 4.678e-01 1.545e+00 0.303 0.762
X3 2.379e-01 1.752e+00 0.136 0.892
X4 -1.740e+00 1.908e+00 -0.912 0.362
X5 1.629e+00 1.756e+00 0.928 0.353
X6 -1.424e+01 2.400e+03 -0.006 0.995
X7 5.264e-01 2.066e+00 0.255 0.799
X8 -5.619e-01 1.596e+00 -0.352 0.725
X9 7.096e-03 1.389e+00 0.005 0.996
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 30.024 on 29 degrees of freedom
Residual deviance: 23.211 on 20 degrees of freedom
AIC: 43.211
Number of Fisher Scoring iterations: 15- Bagi Variabel Prediktor X1
Pvalue = 0,246 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Usia (X1) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X2
Pvalue = 0,762 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Jenis Kelamin (X2) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X3
Pvalue = 0,892 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Genetik (X3) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X4
Pvalue = 0,362 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Merokok (X4) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X5
Pvalue = 0,353 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Kurang Aktifitas Fisik (X5) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X6
Pvalue = 0,995 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Konsumsi Alkohol (X6) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X7
Pvalue = 0,799 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Kurang Konsumsi Buah dan Sayur (X7) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X8
Pvalue = 0,725 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Indeks Massa Tubuh (X8) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
- Bagi Variabel Prediktor X9
Pvalue = 0,996 > 0,05 (alpha), Terima Ho
Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Obesitas (X9) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
4.4.2 Uji Signifikansi Simultan
> #Uji Siginfikansi Keseluruhan (Simultan)
> library(pscl)
> pR2(modelreglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-11.6053129 -15.0120727 6.8135197 0.2269347 0.2031727 0.3212641
> qchisq(0.95,8)
[1] 15.50731Berdasarkan hasil Uji Signifikansi Simultan, didapati rasio Likelihood sebesar 6,8135197 dan nilai Chi-Square tabelnya yakni 15,50731. Dapat disimpulkan bahwa Likelihood (6,8135197) < (15,50731) Chi-Squared tabel. Kesimpulan yang dapat diambil yakni Terima HO dimana dapat cukup bukti bahwa ke-9 variabel prediktor tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia
4.5 Odds Ratio
> beta <- coef(modelreglog)
> OR_Beta <- exp(beta)
> Odds_ratio <- cbind(beta,OR_Beta)
> Odds_ratio
beta OR_Beta
(Intercept) 16.829881635 2.037627e+07
X1 -0.858814821 4.236639e-01
X2 0.467771861 1.596433e+00
X3 0.237882115 1.268560e+00
X4 -1.739770055 1.755608e-01
X5 1.629117688 5.099373e+00
X6 -14.237800905 6.555437e-07
X7 0.526364328 1.692767e+00
X8 -0.561912435 5.701177e-01
X9 0.007096321 1.007122e+00Dengan fungsi diatas dapat diketahui untuk Odds Ratio akan menghasilkan interpretasi setiap variabel sebagai berikut:
Ketika variabel X1 bertambah 1 satuan dan variabel lain konstan, maka kecenderungan terjadinya Hiperkolesterolemia akan meningkat sebesar 2,0376 kali lipat
Peluang variabel X2 berjenis kelamin perempuan memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,42366 kali lipat daripada jenis kelamin laki laki
Peluang variabel X3 bergenetik memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,59643 kali lipat daripada tidak bergenetik
Peluang variabel X4 merokok memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,26856 kali lipat daripada tidak merokok
Peluang variabel X5 kurang aktifitas memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,17556 kali lipat daripada tidak kurang aktifitas
Peluang variabel X6 mengonsumsi alkohol memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 5,09937 kali lipat daripada tidak mengonsumsi alkohol
Peluang variabel X7 mengonsumsi buah dan sayur memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,69276 kali lipat daripada tidak mengonsumsi buah dan sayur
Peluang variabel X8 bertubuh IMT memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,57011 kali lipat daripada tidak bertubuh IMT
Peluang variabel X9 obesitas memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,00712 kali lipat daripada tidak obesitas
4.6 Uji Kesesuaian Model
> #Uji Kelayakan Model
> library(ResourceSelection)
> hoslem.test(data1$Y,fitted(modelreglog))
Hosmer and Lemeshow goodness of fit (GOF) test
data: data1$Y, fitted(modelreglog)
X-squared = 4.121, df = 8, p-value = 0.846
> Rsq <- 1-(23.211/30.024)
> Rsq
[1] 0.2269185Berdasarkan fungsi hoslem.test() didapatkan hasil pengujian Hosmer and Lemeshow Goodness of Fit test yang menunjukkan nilai p-value sebesar 0,846. Dengan ini dapat diambil kesimpulan P-value (0,846) > (0.05) alpha sehingga HO diterima. Maka dengan ini dapat disimpulkan model yang terbentuk layak digunakan
4.7 Ketepatan Klasifikasi
> crosstab <- table(data1$Y,fitted(modelreglog)>0.5)
> crosstab
FALSE TRUE
0 1 5
1 1 23
> Akurasi <- ((23+5)/(1+5+1+23))*100
> print(paste(Akurasi,"%"))
[1] "93.3333333333333 %"Dengan membuat terlebih dahulu ketetapan klasifikasi, dapat ditentukan bahwa:
Dari 6 amatan Y=0 ada 5 yang diklasifikasikan benar
Dari 24 amatan Y=1 ada 23 yang diklasifikasikan dengan benar
Oleh karena itu dapat dihitung tingkat akurasi model yakni sebesar 93,33%
5 Bab V : Kesimpulan
Berdasarkan hasil pengujian pada data yang telah ditentukan, dapat dihasilkan beberapa poin yakni
- Model Regresi Logistik Biner ialah
\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = 1,683-0,8588X_{1}+0,4678X_{2}+0,2379X_{3}-1,740X_{4}+1.629X_{5}-1,424X_{6}+0,5264X_{7}-0,5619X_{8}+0,007096X_{9} \]
- Faktor yang Berpengaruh
Dengan hasil uji signifikansi simultan yang menunjukkan ke-9 variabel tidak berpengaruh signifikan terhadap variabel respon, namun meskipun begitu dengan uji Asumsi Multikolinieritas didapatkan bahwa ke-9 variabel prediktor masih memiliki nilai VIF dibawah 10 dimana ke-9 variabel prediktor masih layak digunakan dalam pemodelan regresi logistik biner. Terlebih didukung oleh tabel klasifikasi dimana akurasi pemodelan menunjukkan akurat seesar 93,33%
6 Daftar Pustaka
- Afifah, D. N. (2020). Penerapan metode regresi logistik biner pada kesejahteraan rumah tangga di Kabupaten Mojokerto (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).
- Agresti, A. (1990). Categorical Data Analysis. New York: John Wiley and Sons
- Hasan, Iqbal, (2001). Pokok-Pokok Materi Statistik 1 (Statistik Deskriptif). Jakarta: PT. Bumi Aksara
- Johnson, R., & Wichern, D. (1992). Applied Multivariate Statistical Analysis. Prentice Hall New Jersey.
- Ramandhani, R., Sudarno, & Safitri, D. (2017). Metode Bootstrap Aggregating Regresi Logistik Biner untuk Ketepatan Klasifikasi Kesejahteraan Rumah Tangga di Kota Pati. Jurnal Gaussian, Vol 6 No 1: 121-124.
- Santoso, S. (2012). Analisis SPSS pada Statistik Parametrik. Jakarta: PT. Elex Media Komputiondo.
- Varamita, A. (2017). Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di Rskd Ibu dan Anak Siti Fatimah Makassar. Skripsi Universitas Negeri Makassar.
- Walpole, R. (1995). Pengantar Statistika. Jakarta: Gramedia
- Wijanto, S. (2008). Structural Equation Modeling dengan Lisrel 8.8: Konsep dan Tutorial. Yogyakarta: Graha Ilmu.