1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi logistik adalah teknik statistik yang digunakan untuk memprediksi hasil biner, seperti keberhasilan atau kegagalan, berdasarkan satu atau lebih variabel independen. Metode ini sering digunakan dalam berbagai bidang, termasuk ilmu kesehatan, ekonomi, dan ilmu sosial, untuk memahami dan memprediksi probabilitas kejadian tertentu. Tidak seperti regresi linear, yang memprediksi nilai kontinu, regresi logistik memprediksi probabilitas kejadian dengan hasil dikotomi (dua kategori). Salah satu keuntungan utama dari regresi logistik adalah fleksibilitasnya dalam menangani variabel dependen biner tanpa memerlukan asumsi normalitas. Berikut adalah beberapa syarat yang perlu diperhatikan dalam analisis regresi logistik:

  1. Tidak memerlukan hubungan linier antara variabel independen dan variabel dependen.

  2. Variabel independen tidak harus memenuhi asumsi multivariate normality.

  3. Tidak memerlukan asumsi homoskedastisitas.

  4. Variabel independen tidak perlu diubah menjadi skala interval atau rasio.

  5. Variabel dependen harus dikotomi (dua kategori).

  6. Variabel independen tidak harus memiliki varian yang sama di antara kelompok.

  7. Kategori dalam variabel independen harus eksklusif.

  8. Memerlukan jumlah sampel yang relatif besar, dengan minimum sekitar 50 sampel data untuk setiap variabel prediktor.

  9. Menggunakan transformasi log non-linier untuk memprediksi odds ratio, memungkinkan seleksi hubungan antar variabel. Dalam konteks tugas komputasi statistika ini, digunakan data dari Pima Indians Diabetes Database yang tersedia di Kaggle. Database ini berisi informasi medis dari wanita keturunan Pima Indian, termasuk berbagai faktor kesehatan seperti usia, indeks massa tubuh, tekanan darah, dan lainnya. Tujuannya adalah untuk memprediksi apakah seorang individu menderita diabetes berdasarkan variabel-variabel tersebut menggunakan analisis regresi logistik.

Data ini sangat cocok untuk analisis regresi logistik karena variabel dependen (diabetes) bersifat biner (positif atau negatif), dan kita dapat mengevaluasi pengaruh berbagai faktor kesehatan terhadap probabilitas seseorang menderita diabetes. Dengan demikian, penelitian ini tidak hanya bertujuan untuk memprediksi status diabetes tetapi juga untuk memahami faktor-faktor kesehatan yang berkontribusi terhadap penyakit tersebut.

1.2 Tinjauan Pustaka

1.2.1 Analisis Logistik

Regresi logistik adalah metode statistik yang digunakan untuk memprediksi kemungkinan terjadinya suatu peristiwa biner berdasarkan satu atau lebih variabel independen. Model ini sangat berguna ketika variabel dependen bersifat dikotomi, seperti ya/tidak, sukses/gagal, atau hadir/tidak hadir. Regresi logistik menggunakan fungsi logit untuk mengaitkan variabel dependen dengan variabel independen. Fungsi logit adalah logaritma dari rasio odds, yang memberikan hubungan non-linear yang sesuai untuk variabel biner.

Model regresi logistik dinyatakan dengan persamaan:

\(\ logit (p)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_kX_k\)

1.2.2 Uji Likelihood Ratio

Uji Likelihood Ratio (LR) digunakan untuk menguji signifikansi keseluruhan model regresi logistik. Uji ini membandingkan model yang mengandung semua variabel independen (model penuh) dengan model yang hanya mengandung intercept (model null). Statistik LR dihitung sebagai:

\(LR=\ -2(ln(L0) - ln(Lf))\)

Di mana L0 adalah likelihood dari model null dan Lf adalah likelihood dari model penuh. Statistik LR mengikuti distribusi chi-square dengan derajat kebebasan sama dengan jumlah variabel independen dalam model. Nilai p yang kecil (biasanya < 0.05) menunjukkan bahwa model penuh secara signifikan lebih baik daripada model null.

1.2.3 R-Squared

Tidak ada analog langsung dari R-squared dalam regresi linear untuk regresi logistik, tetapi beberapa ukuran pseudo R-squared digunakan untuk mengevaluasi kecocokan model. Beberapa pseudo R-squared yang umum digunakan termasuk:

  • McFadden’s R-squared: Mengukur kecocokan model dengan membandingkan likelihood model penuh dengan model null.

  • Cox and Snell’s R-squared: Mengukur proporsi variasi yang dijelaskan oleh model.

  • Nagelkerke’s R-squared: Merupakan modifikasi dari Cox and Snell’s R-squared yang dapat mencapai nilai maksimum

2 SOURCE CODE

2.1 Library

> library(readr)
> library(glm2)
> library(pscl)

#Import Data

> Laprak2 <- read.csv("C:/Users/Shella Mitha/Downloads/diabetes.csv") 
> head(Laprak2)
   X Y
1 50 1
2 31 0
3 32 1
4 21 0
5 33 1
6 30 0
> summary(Laprak2) 
       X               Y        
 Min.   :21.00   Min.   :0.000  
 1st Qu.:24.00   1st Qu.:0.000  
 Median :29.00   Median :0.000  
 Mean   :33.24   Mean   :0.349  
 3rd Qu.:41.00   3rd Qu.:1.000  
 Max.   :81.00   Max.   :1.000  
> str(Laprak2)
'data.frame':   768 obs. of  2 variables:
 $ X: int  50 31 32 21 33 30 26 29 53 54 ...
 $ Y: int  1 0 1 0 1 0 1 0 1 1 ...

2.2 Analisis

#Menghitung Regresi Logika

> RegresiLogika <- glm(Y~X, family = binomial(link = 'logit'), data = Laprak2)
> summary(RegresiLogika)

Call:
glm(formula = Y ~ X, family = binomial(link = "logit"), data = Laprak2)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.7809  -0.8512  -0.7505   1.2811   1.6950  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.047511   0.238847  -8.572  < 2e-16 ***
X            0.042026   0.006587   6.380 1.77e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 993.48  on 767  degrees of freedom
Residual deviance: 950.72  on 766  degrees of freedom
AIC: 954.72

Number of Fisher Scoring iterations: 4

#Uji Signifikansi Keseluruhan Model

> pR2(RegresiLogika)
fitting null model for pseudo-r2
          llh       llhNull            G2      McFadden          r2ML 
-475.36017019 -496.74195507   42.76356976    0.04304405    0.05415988 
         r2CU 
   0.07462937 
> qchisq(0.95, 1)
[1] 3.841459

#R square

> Rsq <- 1-(950.72/993.48)
> Rsq
[1] 0.04304062

#Odds Ratio

> beta <- coef(RegresiLogika)
> beta
(Intercept)           X 
-2.04751105  0.04202648 
> OR_beta<-exp(beta)
> OR_beta
(Intercept)           X 
  0.1290557   1.0429221 
> cbind(beta,OR_beta)
                   beta   OR_beta
(Intercept) -2.04751105 0.1290557
X            0.04202648 1.0429221

#Membentuk klasifikasi

> yp_hat <- fitted(RegresiLogika)
> class <- table(Laprak2$Y, yp_hat > 0.5)
> class
   
    FALSE TRUE
  0   452   48
  1   222   46

3 HASIL DAN PEMBAHASAN

3.1 Model Regresi Logistik

\(Logit[\hat\pi(X)]= -2.047511+0.042026X\)

Interpretasi :

Dari output tersebut, dapat dilihat bahwa nilai koefisien𝛽1= 0.042026 memiliki kecenderungan positif. Ini berarti bahwa setiap peningkatan satu tahun dalam umur dapat berkontribusi pada peningkatan peluang diagnosis diabetes.

3.2 Uji Parsial

Hipotesis :

\(H_0=\hat\beta_j=0\)

\(H_0=\hat\beta_j\neq0\)

Hasil :

> summary(RegresiLogika)

Call:
glm(formula = Y ~ X, family = binomial(link = "logit"), data = Laprak2)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.7809  -0.8512  -0.7505   1.2811   1.6950  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.047511   0.238847  -8.572  < 2e-16 ***
X            0.042026   0.006587   6.380 1.77e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 993.48  on 767  degrees of freedom
Residual deviance: 950.72  on 766  degrees of freedom
AIC: 954.72

Number of Fisher Scoring iterations: 4

Keputusan :

p-value < α (0.05), maka tolak \(H_0\)

Interpretasi : Dari Keputusan di atas, maka dapat disimpulkan bahwa umur berpengaruh signifikan terhadap diagnosis diabetes

3.3 R-Square

Hasil :

> #R square
> Rsq <- 1-(950.72/993.48)
> Rsq
[1] 0.04304062

Interpretasi :

Dari nilai R square tersebut, dapat diketahui bahwa variable umur dapat menjelaskan 4.3% potensi diagnosis diabetes

3.4 Odds Ratio

Hasil :

> cbind(beta,OR_beta)
                   beta   OR_beta
(Intercept) -2.04751105 0.1290557
X            0.04202648 1.0429221

Interpretasi :

Jika umur bertambah 1 tahun, maka responden tersebut akan memiliki potensi diagnosis diabetes sebesar 1.0429221 kali.

3.5 Uji Signifikansi Keseluruhan Model

Hipotesis :

\(H_0=\beta_1=\beta_2=...=\beta_p=0\)

\(H_1=\) Minimal ada satu \(\beta_j\neq0\)

Hasil :

> pR2(RegresiLogika)
fitting null model for pseudo-r2
          llh       llhNull            G2      McFadden          r2ML 
-475.36017019 -496.74195507   42.76356976    0.04304405    0.05415988 
         r2CU 
   0.07462937 
> qchisq(0.95, 1)
[1] 3.841459

Keputusan :

\(G^2>\chi^2_{0,05;1}\) (3,841459), maka tolak \(H_0\)

Interpretasi :

Berdasarkan keputusan tersebut, dapat disimpulkan bahwa model signifikan atau berpengaruh terhadap diagnosis diabetes.

3.6 Klasifikasi Model

Hasil :

> class <- table(Laprak2$Y, yp_hat > 0.5)
> class
   
    FALSE TRUE
  0   452   48
  1   222   46

Interpretasi :

  • Dari 500 amatan Y=0 yang dihasilkan, hanya 48 amatan yang terverifikasi sebagai benar

  • Dari 268 amatan Y=1 yang dihasilkan, hanya 46 amatan yang terverivikasi sebagai benar

4 KESIMPULAN

Berdasarkan hasil analisis regresi logistik tersebut, dapat disimpulkan bahwa adanya pengaruh dari variabel umur, terhadap variabel diagnosis diabetes. Artinya, dalam data ini, responden dengan umur yang sudah tidak muda lagi disarankan dapat menjaga kesehatan dan melakukan pencegahan diabetes karena semakin berumur, maka semakin besar pula peluang terdiagnosis diabetes.

5 DAFTAR PUSTAKA

Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression. John Wiley & Sons.

Peng, C. Y. J., Lee, K. L., & Ingersoll, G. M. (2002). An introduction to logistic regression analysis and reporting. The journal of educational research, 96(1), 3-14.

UC Irvine Machine Learning Repository. (1988). Pima Indians Diabetes Database. Kaggle. https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson Prentice Hall.