Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("tinytext")
> # install.packages("prettydoc")
> # install.packages("modEvA")
> # install.packages("cars")
> # install.packages("carData")
> # install.packages("generalhoslem")
> # install.packages("pscl")
> # install.packages("ResourceSelection")
> # install.packages("Mass")
> # install.packages("terra")

1 Bab I : Pendahuluan

1.1 Latar Belakang

Dalam kehidupan sehari-hari, pemanfaatan model regresi logistik dapat diterapkan secara luas. Regresi logistik sendiri dapat dibagi 2 yakni Regresi Logistik Biner dan Regresi Logistik Ordinal. Dalam laporan praktikum kali ini, penulis mendapatkan data bervariabel respon “Ya” dan “Tidak” sehingga analisis regresi biasa maupun ordinal tidak bisa digunakan untuk memodelkan hubungan antar variabel, maka pendekatan yang digunakan ialah analisis regresi logistik biner.

Data yang digunakan ialah data dari Tugas Akhir oleh Dewi Lestari, Program Studi Matematika, Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau berjudul “ANALISIS REGRESI LOGISTIK BINER UNTUK MENENTUKAN FAKTOR-FAKTOR YANG MEMPENGARUHI HIPERKOLESTEROLEMIA (Studi Kasus: Kota Pekanbaru)”. Tugas Akhir ini memiliki data sekunder yang diperoleh dari Dinas Kesehatan Kota Pekanbaru dengan cara screening pasien. Penulis akan membahas mengenai regresi logistik biner dalam konsep dasar, penerapan, hingga komputasinya.

1.2 Rumusan Masalah

Berdasarkan latar belakang, penulis merumuskan sebuah masalah dalam laporan praktikum ini yaitu:

Bagaimana memodelkan data masalah menggunakan regresi logistik biner?
Apa saja faktor-faktor yang mempengaruhi masalah berdasarkan data?
Bagaimana kesimpulan yang dapat diambil?

1.3 Tujuan Masalah

Berdasarkan rumusan masalah, penulis merumuskan sebuah masalah dalam laporan praktikum ini yaitu:

Memberikan informasi mengenai pemodelan data masalah menggunakan regresi logistik biner
Memberikan informasi mengenai faktor-faktor yang mempengaruhi masalah berdasarkan data
Memberikan informasi mengenai kesimpulan yang dapat diambil

1.4 Manfaat Praktikum

Manfaat yang ingin dicapai dari laporan praktikum ini ialah

Bagi Penulis

Dapat mengaplikasikan metode analisis regresi logistik terutama regresi logistik biner pada data kasus nyata serya melihat faktor faktor yang mempengaruhi data terhadap masalah

Bagi Pembaca

Menambah wawasan bagi pembaca dan dapat dijadikan bahan referensi untuk penelitian, laporan praktikum, maupun sumber belajar bagi mahasiswa pada umumnya

2 Bab II : Tinjauan Pustaka

2.1 Statistika Deskriptif

Statistika deskriptif merupakan metode metode dalam pengumpulan serta penyajian data sehingga data dapat dikenali lebih menarik dan informatif. Model statistik deskriptif ialah tidak ada unsur probability atau kemungkinan, semua angka pasti sehingga statistika deskriptif dapat disajikan dalam bentuk tabel, histogram, diagram, grafik, bentuk lainnya.

Dalam statistika deskriptif terdapat dua ukuran yaitu ukuran pemusatan data dan ukuran penyebaran data (Walpole, 1995). Ukuran pemusatan data dapat berupa rata-rata (mean), median, modus dan quartil sedangkan ukuran penyebaran data dapat meliputi rentang, varian, standar deviasi dan jangkauan antar kuartil (Walpole, 1995).

2.2 Regresi Logistik Biner

Analisis regresi merupakan analisis yang menjelaskan keterkaitan hubungan antara variabel respon serta variabel predictor dan satu variabel respon. Regresi itu merupakan Model Regresi Sederhana, namun jika ada lebih dari satu variabel prediktor ataupun respon disebut Model Regresi Berganda. Pengembangan model statistik mendapatkan regresi khusus dimana dalam pemodelannya, variabel respom bersifat kategorik skala nominal maupun ordinal yang disebut Model Regresi Logistik (Varamita, 2017). Dalam pengembangannya lagi terdapat pemodelan regresi dimana suatu kejadian dengan variabel respon bertipe biner dimana ada 2 kategori pilihan yakni sukses atau gagal dimana notasi yang dipakai biasanya Y = 0 (Gagal) dan Y = 1 (Sukses). Maka dengan ini variabel Y mengikuti distribusi Bernoulli dengan fungsi kepekatan peluang sebagai berikut:

\[ f(y_i) = \pi_i^{y_i}(1 - \pi_i)^{1-y_i} \]

di mana:

\(P(X = x)\) adalah peluang bahwa variabel acak Bernoulli (\(X\)) menghasilkan nilai \(x\).
\(p\) adalah probabilitas keberhasilan dalam satu percobaan.
\(x\) adalah hasil percobaan, yang dapat berupa 0 atau 1.

Distribusi yang digunakan dalam regresi logistik biner adalah distribusi Bernoulli (Agresti, 1990). Model regresi logistik biner diasumsikan saling bebas dimana variabel biner memiliki sebaran binomial. Persamaan umum dilambangkan sebagai berikut:

\[ \pi(x)=\frac{\exp(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p})}{1+\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p}} \]

Dimana:

\(\pi(x)\) adalah peluang kejadian sukses dengan nilai probabilitas \(0 \leq \pi(x) \leq 1\).
\(\beta_0\) adalah intersept (bilangan konstan).
\(\beta_1, \ldots, \beta_p\) adalah parameter regresi logistik.
\(x_1, \ldots, x_p\) adalah nilai-nilai peubah bebas.
\(p\) adalah jumlah variabel prediktor.

Dikarenakan nilai persamaan diatas meripakan persamaan non linier, maka perlu diadakan trasnformasi logit sehingga didapatkan fungsi logit g(x). Model regresi logistik biner memiliki persamaan dengan sebaran binom sebagai berikut:

\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = \beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p} \]

Dimana:

\(g(x)\) adalah fungsi logit.
\(\pi(x)\) adalah peluang kejadian sukses dengan nilai probabilitas \(0 \leq \pi(x) \leq 1\).

2.3 Asumsi Multikolinieritas

Asumsi multikolinearitas tidak boleh dilanggar karena dapat memberikan efek yang fatal yaitu model menjadi non identified yang berarti parameter dalam model tidak dapat diestimasi dan keluaran dalam bentuk jalur tidak dapat ditampilkan, atau jika parameter berhasil diestimasi dan keluaran diagram jalur berhasil ditampilkan tetapi hasilnya akan bias. Metode untuk menguji adanya multikoliniearitas dapat dilihat dari nilai tolerance value atau variance inflation factor (VIF) dengan rumus:

\[ VIF = 1/Tolerance \]

atau

\[ Tolerance = 1/(1-R^2) \]

Untuk batas tolerance value adalah 0,10 atau bernilai VIF 10, jika VIF lebih dari 10 dan tolerance value lebih dari 0,10 maka terjadi multikolinieritas tinggi, begitu juga sebaliknya jika tolerance value kurang dari 0,10 dan nilai VIF kurang dari 10, maka asumsi multikolinieritas terpenuhi. Bentuk pemodelan regresi yang baik memiliki VIF disekitar angka 1 dan mempunyai tolerance value mendekati 1 (Santoso, 2012).

2.4 Uji Signifikansi

Uji signifikansi parameter model regresi digunakan untuk mengetahui variabel prediktor secara signifikan berpengaruh terhadap variabel respon atau tidak. Uji ini dibagi dua yakni:

2.4.1 Uji Signifikansi Parsial

Uji ini dilakukan dengan menguji secara individu tiap variabel prediktor. Tujuan utamanya yakni untuk mengetahui pengaruh antara variabel prediktor masing masing terhadap variabel respon. Uji Signifikansi Parsial menggunakan Uji Wald sebagai statistik ujinya, dengan rumus sebagai berikut:

\[ w = \frac{{\beta_j}}{{SE(\beta_j)}} \]

Dimana:

\(w\) adalah rasio \(\beta_j\) dibagi dengan \(SE(\beta_j)\).
\(\beta_j\) adalah koefisien regresi yang terkait dengan prediktor \(x_j\).
\(SE(\beta_j)\) adalah standar error dari koefisien regresi \(\beta_j\).

2.4.2 Uji Signifikansi Simultan

Uji ini dilakukan untuk menguji secara keseluruhan variabel prediktor . Tujuan utamanya yakni untuk mengetahui pengaruh antara seluruh variabel prediktor terhadap variabel respon. Uji Signfikansi Simultan menggunakan uji rasio Likelihood sebagai statistik ujinya, dengan rumus sebagai berikut:

\[ G = -2 \log\left(\frac{{L_0}}{{L_1}}\right) \]

Dimana:

\(G\) adalah nilai uji signifikansi simultan.
\(L_0\) adalah likelihood model terbatas (model dengan variabel terbatas).
\(L_1\) adalah likelihood model lengkap (model dengan semua variabel).

2.5 Odds Ratio (Interpretasi Koefisien Parameter)

Interpretasi Koefisien Parameter ialah penentuan hubungan fungsional antarabariabel respon dan prediktor dan pendefinisian setiap perubahan variabel respon yang disebabkan variabel prediktor. Interpretasi koefisien parameter dapat dilihat pada tabel berikut:

Interpretasi Koefisien Parameter berkaitan dengan Odds Ratio (OR) atau rasio kecenderungan, diamana ia merupakan angka kecenderungan yang didefinisikan sebagai rasio antara jumlah individu yang mengalami peristiwa dengan yang tidak. Berikut merupakan rumus bagi Odds Ratio:

\[ \psi = \frac{\pi(1)/[1-\pi(1)]}{\pi(0)/[1-\pi(0)]} \]

2.6 Uji Kesesuaian Model

Uji Kesesuaian Model atau yang biasa disebut Goodness of fit adalah uji untuk menilai seberapa baik model regresi yang dihasilkan untuk menjelaskan atau merepresentasikan data yang diamati. Kesesuaian model pada Goodness of fit dapat dilihat melalui tabel Hosmer and Lemeshow Test. Menurut Peeters, etc (2012) uji yang digunakan untuk menilai kesesuaian model pada regresi logistik ialah membandingkan frekuensi yang diamati, Adapun statistik ujinya yakni:

\[ C = \sum_j \frac{{(o_j - n_j\pi_j)^2}}{{n_j\pi_j(1-\pi_j)}} \]

2.7 Ketepatan Klasifikasi

Prosedur ini bertujuan untuk mengetahui seberapa layak atau benar tidaknya suatu data klasifikasi. Prosedur klasifikasi yang digunakan dalam regresi logistik ialah apparent error rate (APER). Nilai APER sendiri menyatakan bahwa proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi (Johnson & Wichern, 1992). Untuk menghitungnya, akan lebih mudah jika menggunakan tabel silang antara hasil observasi. Tabel silang atau tabel ketetapan klasifikasi merupakan tabel frekuensi dua arah antara variabel respon dan prediktor. Rumus perhitungannya sebagai berikut:

\[ \text{Ketepatan Klasifikasi} = \frac{{\text{Jumlah Prediksi Benar}}}{{\text{Jumlah Total Data}}} \]

\[ APER = \frac{{n_{12} + n_{21}}}{{n_{11} + n_{12} + n_{21} + n_{22}}} \]

Ketepatan Klasifikasi = 100% - APER(%)

3 Bab III : Data

3.1 Variabel

3.2 Tabel Data

> # Inisiasi Data
> library(readxl)
> setwd("C:/Users/ASUS/Documents")
> data <- read_excel("datapasiendinas.xlsx")
> str(data)
tibble [30 x 10] (S3: tbl_df/tbl/data.frame)
 $ Hiperkolesterolemia: num [1:30] 1 0 1 0 1 1 1 0 1 1 ...
 $ Umur               : num [1:30] 2 2 2 3 4 2 2 2 2 0 ...
 $ Jenis_Kelamin      : num [1:30] 0 0 0 0 1 1 0 1 0 0 ...
 $ Genetik            : num [1:30] 1 1 1 1 1 1 1 1 1 1 ...
 $ Merokok            : num [1:30] 1 1 1 1 0 1 0 0 1 1 ...
 $ Aktifitas_Fisik    : num [1:30] 1 1 1 1 0 1 0 0 1 0 ...
 $ Alkohol            : num [1:30] 1 1 1 1 1 1 1 1 1 1 ...
 $ Buah_Sayur         : num [1:30] 1 1 1 1 1 1 0 0 1 0 ...
 $ Indeks_Massa       : num [1:30] 0 0 0 0 0 0 0 1 1 1 ...
 $ Obesitas           : num [1:30] 0 0 0 1 1 1 0 0 0 0 ...
> 
> Y <- data$Hiperkolesterolemia
> X1 <- data$Umur
> X2 <- data$Jenis_Kelamin
> X3 <- data$Genetik
> X4 <- data$Merokok
> X5 <- data$Aktifitas_Fisik
> X6 <- data$Alkohol
> X7 <- data$Buah_Sayur
> X8 <- data$Indeks_Massa
> X9 <- data$Obesitas
> 
> # Buat Data Frame
> data1 <- data.frame(Y,X1,X2,X3,X4,X5,X6,X7,X8,X9)
> data1
   Y X1 X2 X3 X4 X5 X6 X7 X8 X9
1  1  2  0  1  1  1  1  1  0  0
2  0  2  0  1  1  1  1  1  0  0
3  1  2  0  1  1  1  1  1  0  0
4  0  3  0  1  1  1  1  1  0  1
5  1  4  1  1  0  0  1  1  0  1
6  1  2  1  1  1  1  1  1  0  1
7  1  2  0  1  0  0  1  0  0  0
8  0  2  1  1  0  0  1  0  1  0
9  1  2  0  1  1  1  1  1  1  0
10 1  0  0  1  1  0  1  0  1  0
11 1  2  1  1  1  0  1  0  1  0
12 1  0  1  1  1  1  1  1  1  1
13 1  0  0  1  1  1  1  1  1  0
14 1  2  1  1  0  1  1  1  0  1
15 1  0  1  1  0  1  1  1  0  0
16 1  0  1  1  0  1  1  1  0  1
17 1  0  0  1  1  1  1  1  0  1
18 1  1  1  1  0  1  1  1  0  0
19 1  1  1  1  0  1  1  1  0  0
20 1  2  1  1  0  1  1  1  0  0
21 1  1  1  1  0  1  1  1  0  1
22 1  1  0  0  1  1  1  1  0  0
23 0  0  1  1  1  0  1  0  1  0
24 1  1  0  0  1  1  1  0  1  0
25 0  1  0  0  1  0  1  0  1  0
26 1  1  1  1  1  1  1  0  1  1
27 0  1  0  1  1  0  1  0  0  1
28 1  1  1  1  1  1  0  0  0  0
29 1  0  0  1  1  0  1  0  0  0
30 1  1  0  1  1  0  1  0  0  1

4 Bab IV : Hasil dan Pembahasan

4.1 Statistika Deskriptif

> #Statistika Deskriptif
> summary(data)
 Hiperkolesterolemia      Umur       Jenis_Kelamin    Genetik   
 Min.   :0.0         Min.   :0.000   Min.   :0.0   Min.   :0.0  
 1st Qu.:1.0         1st Qu.:0.250   1st Qu.:0.0   1st Qu.:1.0  
 Median :1.0         Median :1.000   Median :0.5   Median :1.0  
 Mean   :0.8         Mean   :1.233   Mean   :0.5   Mean   :0.9  
 3rd Qu.:1.0         3rd Qu.:2.000   3rd Qu.:1.0   3rd Qu.:1.0  
 Max.   :1.0         Max.   :4.000   Max.   :1.0   Max.   :1.0  
    Merokok       Aktifitas_Fisik     Alkohol         Buah_Sayur 
 Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:1.0000   1st Qu.:0.0  
 Median :1.0000   Median :1.0000   Median :1.0000   Median :1.0  
 Mean   :0.6667   Mean   :0.6667   Mean   :0.9667   Mean   :0.6  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0  
 Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0  
  Indeks_Massa       Obesitas     
 Min.   :0.0000   Min.   :0.0000  
 1st Qu.:0.0000   1st Qu.:0.0000  
 Median :0.0000   Median :0.0000  
 Mean   :0.3333   Mean   :0.3667  
 3rd Qu.:1.0000   3rd Qu.:1.0000  
 Max.   :1.0000   Max.   :1.0000

Dengan perhitungan dari function summary(), didapati berbagai statistika deskriptif dari setiap variabel (respon dan prediktor). Setiap variabel dapat ditemukan hasil dari nilai paling rendah (min), paling tinggi (max), rata-rata(mean), kuartil (bawah dan atas), serta nilai tengah (median).

4.2 Asumsi Multikolinieritas

> #Uji Multikolinieritas
> modelX1 <- lm(X1~X2+X3+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X1 <- 1 / (1 - summary(modelX1)$r.squared)
> modelX2 <- lm(X2~X1+X3+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X2 <- 1 / (1 - summary(modelX2)$r.squared)
> modelX3 <- lm(X3~X1+X2+X4+X5+X6+X7+X8+X9, data=data1)
> vif_X3 <- 1 / (1 - summary(modelX3)$r.squared)
> modelX4 <- lm(X4~X1+X2+X3+X5+X6+X7+X8+X9, data=data1)
> vif_X4 <- 1 / (1 - summary(modelX4)$r.squared)
> modelX5 <- lm(X5~X1+X2+X3+X4+X6+X7+X8+X9, data=data1)
> vif_X5 <- 1 / (1 - summary(modelX5)$r.squared)
> modelX6 <- lm(X6~X1+X2+X3+X4+X5+X7+X8+X9, data=data1)
> vif_X6 <- 1 / (1 - summary(modelX6)$r.squared)
> modelX7 <- lm(X7~X1+X2+X3+X4+X5+X6+X8+X9, data=data1)
> vif_X7 <- 1 / (1 - summary(modelX7)$r.squared)
> modelX8 <- lm(X8~X1+X2+X3+X4+X5+X6+X7+X9, data=data1)
> vif_X8 <- 1 / (1 - summary(modelX8)$r.squared)
> modelX9 <- lm(X9~X1+X2+X3+X4+X5+X6+X7+X8, data=data1)
> vif_X9 <- 1 / (1 - summary(modelX9)$r.squared)
> VIF <- data.frame(vif_X1,vif_X2,vif_X3,vif_X4,vif_X5,vif_X6,vif_X7,vif_X8,vif_X9)
> VIF
    vif_X1   vif_X2  vif_X3   vif_X4   vif_X5   vif_X6   vif_X7   vif_X8
1 1.173265 2.478437 1.31128 2.483369 3.257377 1.937673 4.127969 2.075759
    vif_X9
1 1.362919

Perhitungan VIF atau Variance Inflation Factors perlu dilakukan sebelum membentuk model regresi logistik biner. Perhitungan ini dilakukan pada setiap variabel prediktor. Berdasar Function diatas, nilai VIF pada masing masing variabel prediktor menghasilkan nilai kurang daari 10, yang artinya masing masing variabel prediktor tidak terjadi multikolinieritas antar variabel prediktor atau tidak saling berkorelasi. Sehingga data pasien yang berupa faktor faktor yang mempengaruhi hiperkolestrilemia dapat digunakan.

4.3 Model Regresi Logistik Biner

> #Model Regresi Logistik
> modelreglog <- glm(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9,family = "binomial", data=data1)
> summary(modelreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9, 
    family = "binomial", data = data1)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8571   0.0922   0.2820   0.7222   1.4951  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  1.683e+01  2.400e+03   0.007    0.994
X1          -8.588e-01  7.399e-01  -1.161    0.246
X2           4.678e-01  1.545e+00   0.303    0.762
X3           2.379e-01  1.752e+00   0.136    0.892
X4          -1.740e+00  1.908e+00  -0.912    0.362
X5           1.629e+00  1.756e+00   0.928    0.353
X6          -1.424e+01  2.400e+03  -0.006    0.995
X7           5.264e-01  2.066e+00   0.255    0.799
X8          -5.619e-01  1.596e+00  -0.352    0.725
X9           7.096e-03  1.389e+00   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 30.024  on 29  degrees of freedom
Residual deviance: 23.211  on 20  degrees of freedom
AIC: 43.211

Number of Fisher Scoring iterations: 15

Dengan perhitungan dari function glm(), didapatkan model regresi logistik sebagai berikut:

\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = 1,683-0,8588X_{1}+0,4678X_{2}+0,2379X_{3}-1,740X_{4}1.629X_{5}-1,424X_{6}+0,5264X_{7}-0,5619X_{8}+0,007096X_{9} \]

Interpretasi parameter dapat dilihat yakni sebagai berikut

Ketika semua variabel bernilai 0 maka kejadian terjadinya Hiperkolesterolemia adalah sebesar 1,683
Ketika variabel X1 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,8588
Ketika variabel X2 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,4678
Ketika variabel X3 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,2379
Ketika variabel X4 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 1,740
Ketika variabel X5 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 1,629
Ketika variabel X6 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,1424
Ketika variabel X7 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,5264
Ketika variabel X8 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan meningkat sebesar 0,5619
Ketika variabel X9 meningkat 1 satuan dan variabel lain konstan, maka kejadian terjadinya Hiperkolesterolemia akan menurun sebesar 0,007096

4.4 Uji Signifikansi

4.4.1 Uji Signifikansi Parsial

> #Uji Parsial
> summary(modelreglog)

Call:
glm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9, 
    family = "binomial", data = data1)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8571   0.0922   0.2820   0.7222   1.4951  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  1.683e+01  2.400e+03   0.007    0.994
X1          -8.588e-01  7.399e-01  -1.161    0.246
X2           4.678e-01  1.545e+00   0.303    0.762
X3           2.379e-01  1.752e+00   0.136    0.892
X4          -1.740e+00  1.908e+00  -0.912    0.362
X5           1.629e+00  1.756e+00   0.928    0.353
X6          -1.424e+01  2.400e+03  -0.006    0.995
X7           5.264e-01  2.066e+00   0.255    0.799
X8          -5.619e-01  1.596e+00  -0.352    0.725
X9           7.096e-03  1.389e+00   0.005    0.996

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 30.024  on 29  degrees of freedom
Residual deviance: 23.211  on 20  degrees of freedom
AIC: 43.211

Number of Fisher Scoring iterations: 15

Bagi Variabel Prediktor X1

Pvalue = 0,246 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Usia (X1) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X2

Pvalue = 0,762 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Jenis Kelamin (X2) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X3

Pvalue = 0,892 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Genetik (X3) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X4

Pvalue = 0,362 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Merokok (X4) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X5

Pvalue = 0,353 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Kurang Aktifitas Fisik (X5) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X6

Pvalue = 0,995 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Konsumsi Alkohol (X6) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X7

Pvalue = 0,799 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Kurang Konsumsi Buah dan Sayur (X7) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X8

Pvalue = 0,725 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Indeks Massa Tubuh (X8) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

Bagi Variabel Prediktor X9

Pvalue = 0,996 > 0,05 (alpha), Terima Ho

Dapat cukup bukti bahwa dengan tingkat kepercayaan 95%, Variabel Obesitas (X9) tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

4.4.2 Uji Signifikansi Simultan

> #Uji Siginfikansi Keseluruhan (Simultan)
> library(pscl)
> pR2(modelreglog)
fitting null model for pseudo-r2
        llh     llhNull          G2    McFadden        r2ML        r2CU 
-11.6053129 -15.0120727   6.8135197   0.2269347   0.2031727   0.3212641 
> qchisq(0.95,8)
[1] 15.50731

Berdasarkan hasil Uji Signifikansi Simultan, didapati rasio Likelihood sebesar 6,8135197 dan nilai Chi-Square tabelnya yakni 15,50731. Dapat disimpulkan bahwa Likelihood (6,8135197) < (15,50731) Chi-Squared tabel. Kesimpulan yang dapat diambil yakni Terima HO dimana dapat cukup bukti bahwa ke-9 variabel prediktor tidak berpengaruh signifikan terhadap variabel respon Hiperkolesterolemia

4.5 Odds Ratio

> beta <- coef(modelreglog)
> OR_Beta <- exp(beta)
> Odds_ratio <- cbind(beta,OR_Beta)
> Odds_ratio
                     beta      OR_Beta
(Intercept)  16.829881635 2.037627e+07
X1           -0.858814821 4.236639e-01
X2            0.467771861 1.596433e+00
X3            0.237882115 1.268560e+00
X4           -1.739770055 1.755608e-01
X5            1.629117688 5.099373e+00
X6          -14.237800905 6.555437e-07
X7            0.526364328 1.692767e+00
X8           -0.561912435 5.701177e-01
X9            0.007096321 1.007122e+00

Dengan fungsi diatas dapat diketahui untuk Odds Ratio akan menghasilkan interpretasi setiap variabel sebagai berikut:

Ketika variabel X1 bertambah 1 satuan dan variabel lain konstan, maka kecenderungan terjadinya Hiperkolesterolemia akan meningkat sebesar 2,0376 kali lipat
Peluang variabel X2 berjenis kelamin perempuan memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,42366 kali lipat daripada jenis kelamin laki laki
Peluang variabel X3 bergenetik memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,59643 kali lipat daripada tidak bergenetik
Peluang variabel X4 merokok memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,26856 kali lipat daripada tidak merokok
Peluang variabel X5 kurang aktifitas memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,17556 kali lipat daripada tidak kurang aktifitas
Peluang variabel X6 mengonsumsi alkohol memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 5,09937 kali lipat daripada tidak mengonsumsi alkohol
Peluang variabel X7 mengonsumsi buah dan sayur memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,69276 kali lipat daripada tidak mengonsumsi buah dan sayur
Peluang variabel X8 bertubuh IMT memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 0,57011 kali lipat daripada tidak bertubuh IMT
Peluang variabel X9 obesitas memiliki kecenderungan terjadinya Hiperkolesterolemia sebesar 1,00712 kali lipat daripada tidak obesitas

4.6 Uji Kesesuaian Model

> #Uji Kelayakan Model
> library(ResourceSelection)
> hoslem.test(data1$Y,fitted(modelreglog))

    Hosmer and Lemeshow goodness of fit (GOF) test

data:  data1$Y, fitted(modelreglog)
X-squared = 4.121, df = 8, p-value = 0.846
> Rsq <- 1-(23.211/30.024)
> Rsq
[1] 0.2269185

Berdasarkan fungsi hoslem.test() didapatkan hasil pengujian Hosmer and Lemeshow Goodness of Fit test yang menunjukkan nilai p-value sebesar 0,846. Dengan ini dapat diambil kesimpulan P-value (0,846) > (0.05) alpha sehingga HO diterima. Maka dengan ini dapat disimpulkan model yang terbentuk layak digunakan

4.7 Ketepatan Klasifikasi

> crosstab <- table(data1$Y,fitted(modelreglog)>0.5)
> crosstab
   
    FALSE TRUE
  0     1    5
  1     1   23
> Akurasi <- ((23+5)/(1+5+1+23))*100
> print(paste(Akurasi,"%"))
[1] "93.3333333333333 %"

Dengan membuat terlebih dahulu ketetapan klasifikasi, dapat ditentukan bahwa:

Dari 6 amatan Y=0 ada 5 yang diklasifikasikan benar
Dari 24 amatan Y=1 ada 23 yang diklasifikasikan dengan benar
Oleh karena itu dapat dihitung tingkat akurasi model yakni sebesar 93,33%

5 Bab V : Kesimpulan

Berdasarkan hasil pengujian pada data yang telah ditentukan, dapat dihasilkan beberapa poin yakni

Model Regresi Logistik Biner ialah

\[ g(x) = \ln\left(\frac{{\pi(x)}}{{1 - \pi(x)}}\right) = 1,683-0,8588X_{1}+0,4678X_{2}+0,2379X_{3}-1,740X_{4}+1.629X_{5}-1,424X_{6}+0,5264X_{7}-0,5619X_{8}+0,007096X_{9} \]

Faktor yang Berpengaruh

Dengan hasil uji signifikansi simultan yang menunjukkan ke-9 variabel tidak berpengaruh signifikan terhadap variabel respon, namun meskipun begitu dengan uji Asumsi Multikolinieritas didapatkan bahwa ke-9 variabel prediktor masih memiliki nilai VIF dibawah 10 dimana ke-9 variabel prediktor masih layak digunakan dalam pemodelan regresi logistik biner. Terlebih didukung oleh tabel klasifikasi dimana akurasi pemodelan menunjukkan akurat seesar 93,33%

6 Daftar Pustaka

Afifah, D. N. (2020). Penerapan metode regresi logistik biner pada kesejahteraan rumah tangga di Kabupaten Mojokerto (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).
Agresti, A. (1990). Categorical Data Analysis. New York: John Wiley and Sons
Hasan, Iqbal, (2001). Pokok-Pokok Materi Statistik 1 (Statistik Deskriptif). Jakarta: PT. Bumi Aksara
Johnson, R., & Wichern, D. (1992). Applied Multivariate Statistical Analysis. Prentice Hall New Jersey.
Ramandhani, R., Sudarno, & Safitri, D. (2017). Metode Bootstrap Aggregating Regresi Logistik Biner untuk Ketepatan Klasifikasi Kesejahteraan Rumah Tangga di Kota Pati. Jurnal Gaussian, Vol 6 No 1: 121-124.
Santoso, S. (2012). Analisis SPSS pada Statistik Parametrik. Jakarta: PT. Elex Media Komputiondo.
Varamita, A. (2017). Analisis Regresi Logistik dan Aplikasinya pada Penyakit Anemia untuk Ibu Hamil di Rskd Ibu dan Anak Siti Fatimah Makassar. Skripsi Universitas Negeri Makassar.
Walpole, R. (1995). Pengantar Statistika. Jakarta: Gramedia
Wijanto, S. (2008). Structural Equation Modeling dengan Lisrel 8.8: Konsep dan Tutorial. Yogyakarta: Graha Ilmu.

PENERAPAN KOMPUTASI PADA ANALISIS REGRESI LOGISTIK BINER DALAM PENENTUAN FAKTOR-FAKTOR YANG MEMPENGARUHI HIPERKOLESTEROLEMIA (Studi Kasus: Kota Pekanbaru)

Mochammad Khozin Anang Alfarizi Setiawan

2023-05-29

1 Bab I : Pendahuluan

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan Masalah

1.4 Manfaat Praktikum

2 Bab II : Tinjauan Pustaka

2.1 Statistika Deskriptif

2.2 Regresi Logistik Biner

2.3 Asumsi Multikolinieritas

2.4 Uji Signifikansi

2.4.1 Uji Signifikansi Parsial

2.4.2 Uji Signifikansi Simultan

2.5 Odds Ratio (Interpretasi Koefisien Parameter)

2.6 Uji Kesesuaian Model

2.7 Ketepatan Klasifikasi

3 Bab III : Data

3.1 Variabel

3.2 Tabel Data

4 Bab IV : Hasil dan Pembahasan

4.1 Statistika Deskriptif

4.2 Asumsi Multikolinieritas

4.3 Model Regresi Logistik Biner

4.4 Uji Signifikansi

4.4.1 Uji Signifikansi Parsial

4.4.2 Uji Signifikansi Simultan

4.5 Odds Ratio

4.6 Uji Kesesuaian Model

4.7 Ketepatan Klasifikasi

5 Bab V : Kesimpulan

6 Daftar Pustaka