Analisis regresi logistik adalah teknik statistik yang digunakan untuk memprediksi hasil biner, seperti keberhasilan atau kegagalan, berdasarkan satu atau lebih variabel independen. Metode ini sering digunakan dalam berbagai bidang, termasuk ilmu kesehatan, ekonomi, dan ilmu sosial, untuk memahami dan memprediksi probabilitas kejadian tertentu. Tidak seperti regresi linear, yang memprediksi nilai kontinu, regresi logistik memprediksi probabilitas kejadian dengan hasil dikotomi (dua kategori). Salah satu keuntungan utama dari regresi logistik adalah fleksibilitasnya dalam menangani variabel dependen biner tanpa memerlukan asumsi normalitas. Berikut adalah beberapa syarat yang perlu diperhatikan dalam analisis regresi logistik:
Tidak memerlukan hubungan linier antara variabel independen dan variabel dependen.
Variabel independen tidak harus memenuhi asumsi multivariate normality.
Tidak memerlukan asumsi homoskedastisitas.
Variabel independen tidak perlu diubah menjadi skala interval atau rasio.
Variabel dependen harus dikotomi (dua kategori).
Variabel independen tidak harus memiliki varian yang sama di antara kelompok.
Kategori dalam variabel independen harus eksklusif.
Memerlukan jumlah sampel yang relatif besar, dengan minimum sekitar 50 sampel data untuk setiap variabel prediktor.
Menggunakan transformasi log non-linier untuk memprediksi odds ratio, memungkinkan seleksi hubungan antar variabel. Dalam konteks tugas komputasi statistika ini, digunakan data dari Pima Indians Diabetes Database yang tersedia di Kaggle. Database ini berisi informasi medis dari wanita keturunan Pima Indian, termasuk berbagai faktor kesehatan seperti usia, indeks massa tubuh, tekanan darah, dan lainnya. Tujuannya adalah untuk memprediksi apakah seorang individu menderita diabetes berdasarkan variabel-variabel tersebut menggunakan analisis regresi logistik.
Data ini sangat cocok untuk analisis regresi logistik karena variabel dependen (diabetes) bersifat biner (positif atau negatif), dan kita dapat mengevaluasi pengaruh berbagai faktor kesehatan terhadap probabilitas seseorang menderita diabetes. Dengan demikian, penelitian ini tidak hanya bertujuan untuk memprediksi status diabetes tetapi juga untuk memahami faktor-faktor kesehatan yang berkontribusi terhadap penyakit tersebut.
Regresi logistik adalah metode statistik yang digunakan untuk memprediksi kemungkinan terjadinya suatu peristiwa biner berdasarkan satu atau lebih variabel independen. Model ini sangat berguna ketika variabel dependen bersifat dikotomi, seperti ya/tidak, sukses/gagal, atau hadir/tidak hadir. Regresi logistik menggunakan fungsi logit untuk mengaitkan variabel dependen dengan variabel independen. Fungsi logit adalah logaritma dari rasio odds, yang memberikan hubungan non-linear yang sesuai untuk variabel biner.
Model regresi logistik dinyatakan dengan persamaan:
\(\ logit (p)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_kX_k\)
Uji Likelihood Ratio (LR) digunakan untuk menguji signifikansi keseluruhan model regresi logistik. Uji ini membandingkan model yang mengandung semua variabel independen (model penuh) dengan model yang hanya mengandung intercept (model null). Statistik LR dihitung sebagai:
\(LR=\ -2(ln(L0) - ln(Lf))\)
Di mana L0 adalah likelihood dari model null dan Lf adalah likelihood dari model penuh. Statistik LR mengikuti distribusi chi-square dengan derajat kebebasan sama dengan jumlah variabel independen dalam model. Nilai p yang kecil (biasanya < 0.05) menunjukkan bahwa model penuh secara signifikan lebih baik daripada model null.
Tidak ada analog langsung dari R-squared dalam regresi linear untuk regresi logistik, tetapi beberapa ukuran pseudo R-squared digunakan untuk mengevaluasi kecocokan model. Beberapa pseudo R-squared yang umum digunakan termasuk:
McFadden’s R-squared: Mengukur kecocokan model dengan membandingkan likelihood model penuh dengan model null.
Cox and Snell’s R-squared: Mengukur proporsi variasi yang dijelaskan oleh model.
Nagelkerke’s R-squared: Merupakan modifikasi dari Cox and Snell’s R-squared yang dapat mencapai nilai maksimum
> library(readr)
> library(glm2)
> library(pscl)
#Import Data
> Laprak2 <- read.csv("C:/Users/Shella Mitha/Downloads/diabetes.csv")
> head(Laprak2)
X Y
1 50 1
2 31 0
3 32 1
4 21 0
5 33 1
6 30 0
> summary(Laprak2)
X Y
Min. :21.00 Min. :0.000
1st Qu.:24.00 1st Qu.:0.000
Median :29.00 Median :0.000
Mean :33.24 Mean :0.349
3rd Qu.:41.00 3rd Qu.:1.000
Max. :81.00 Max. :1.000
> str(Laprak2)
'data.frame': 768 obs. of 2 variables:
$ X: int 50 31 32 21 33 30 26 29 53 54 ...
$ Y: int 1 0 1 0 1 0 1 0 1 1 ...
#Menghitung Regresi Logika
> RegresiLogika <- glm(Y~X, family = binomial(link = 'logit'), data = Laprak2)
> summary(RegresiLogika)
Call:
glm(formula = Y ~ X, family = binomial(link = "logit"), data = Laprak2)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.7809 -0.8512 -0.7505 1.2811 1.6950
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.047511 0.238847 -8.572 < 2e-16 ***
X 0.042026 0.006587 6.380 1.77e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 993.48 on 767 degrees of freedom
Residual deviance: 950.72 on 766 degrees of freedom
AIC: 954.72
Number of Fisher Scoring iterations: 4
#Uji Signifikansi Keseluruhan Model
> pR2(RegresiLogika)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-475.36017019 -496.74195507 42.76356976 0.04304405 0.05415988
r2CU
0.07462937
> qchisq(0.95, 1)
[1] 3.841459
#R square
> Rsq <- 1-(950.72/993.48)
> Rsq
[1] 0.04304062
#Odds Ratio
> beta <- coef(RegresiLogika)
> beta
(Intercept) X
-2.04751105 0.04202648
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X
0.1290557 1.0429221
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -2.04751105 0.1290557
X 0.04202648 1.0429221
#Membentuk klasifikasi
> yp_hat <- fitted(RegresiLogika)
> class <- table(Laprak2$Y, yp_hat > 0.5)
> class
FALSE TRUE
0 452 48
1 222 46
\(Logit[\hat\pi(X)]= -2.047511+0.042026X\)
Interpretasi :
Dari output tersebut, dapat dilihat bahwa nilai koefisien𝛽1= 0.042026 memiliki kecenderungan positif. Ini berarti bahwa setiap peningkatan satu tahun dalam umur dapat berkontribusi pada peningkatan peluang diagnosis diabetes.
Hipotesis :
\(H_0=\hat\beta_j=0\)
\(H_0=\hat\beta_j\neq0\)
Hasil :
> summary(RegresiLogika)
Call:
glm(formula = Y ~ X, family = binomial(link = "logit"), data = Laprak2)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.7809 -0.8512 -0.7505 1.2811 1.6950
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.047511 0.238847 -8.572 < 2e-16 ***
X 0.042026 0.006587 6.380 1.77e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 993.48 on 767 degrees of freedom
Residual deviance: 950.72 on 766 degrees of freedom
AIC: 954.72
Number of Fisher Scoring iterations: 4
Keputusan :
p-value < α (0.05), maka tolak \(H_0\)
Interpretasi : Dari Keputusan di atas, maka dapat disimpulkan bahwa umur berpengaruh signifikan terhadap diagnosis diabetes
Hasil :
> #R square
> Rsq <- 1-(950.72/993.48)
> Rsq
[1] 0.04304062
Interpretasi :
Dari nilai R square tersebut, dapat diketahui bahwa variable umur dapat menjelaskan 4.3% potensi diagnosis diabetes
Hasil :
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -2.04751105 0.1290557
X 0.04202648 1.0429221
Interpretasi :
Jika umur bertambah 1 tahun, maka responden tersebut akan memiliki potensi diagnosis diabetes sebesar 1.0429221 kali.
Hipotesis :
\(H_0=\beta_1=\beta_2=...=\beta_p=0\)
\(H_1=\) Minimal ada satu \(\beta_j\neq0\)
Hasil :
> pR2(RegresiLogika)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-475.36017019 -496.74195507 42.76356976 0.04304405 0.05415988
r2CU
0.07462937
> qchisq(0.95, 1)
[1] 3.841459
Keputusan :
\(G^2>\chi^2_{0,05;1}\) (3,841459), maka tolak \(H_0\)
Interpretasi :
Berdasarkan keputusan tersebut, dapat disimpulkan bahwa model signifikan atau berpengaruh terhadap diagnosis diabetes.
Hasil :
> class <- table(Laprak2$Y, yp_hat > 0.5)
> class
FALSE TRUE
0 452 48
1 222 46
Interpretasi :
Dari 500 amatan Y=0 yang dihasilkan, hanya 48 amatan yang terverifikasi sebagai benar
Dari 268 amatan Y=1 yang dihasilkan, hanya 46 amatan yang terverivikasi sebagai benar
Berdasarkan hasil analisis regresi logistik tersebut, dapat disimpulkan bahwa adanya pengaruh dari variabel umur, terhadap variabel diagnosis diabetes. Artinya, dalam data ini, responden dengan umur yang sudah tidak muda lagi disarankan dapat menjaga kesehatan dan melakukan pencegahan diabetes karena semakin berumur, maka semakin besar pula peluang terdiagnosis diabetes.
Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression. John Wiley & Sons.
Peng, C. Y. J., Lee, K. L., & Ingersoll, G. M. (2002). An introduction to logistic regression analysis and reporting. The journal of educational research, 96(1), 3-14.
UC Irvine Machine Learning Repository. (1988). Pima Indians Diabetes Database. Kaggle. https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson Prentice Hall.