Analisis Determinan Status Diabetes
Menggunakan Regresi Logistik Ordinal
Pretri Seveny Yasyaf ย ยทย Mutiara Meisya Fadila ย ยทย Universitas Padjadjaran ย ยทย 2026
Diabetes Melitus Regresi Logistik Ordinal BRFSS 2015 Odds Ratio CDC Dataset
Penelitian ini mengidentifikasi faktor penentu status diabetes menggunakan regresi logistik ordinal pada data Diabetes Health Indicators BRFSS 2015 (n = 253.680). Variabel respons terdiri atas tiga kategori: tidak diabetes, prediabetes, dan diabetes. Sebelas variabel prediktor mencakup kondisi metabolik, perilaku, dan sosial-ekonomi dianalisis secara simultan dan parsial. Seluruh variabel prediktor terbukti signifikan (p < 0,05). Hipertensi merupakan faktor terkuat (OR = 2,406), sementara aktivitas fisik dan pendapatan tinggi bersifat protektif. Model mencapai akurasi klasifikasi 84,52%.
๐ Konteks Global: WHO mencatat lonjakan penderita diabetes dari 200 juta (1990) menjadi 830 juta (2022). IDF memproyeksikan angka ini akan mencapai 853 juta pada 2050.
Diabetes melitus merupakan tantangan kesehatan global yang dipengaruhi faktor demografis, perilaku, dan kondisi kesehatan individu. Komplikasi seperti penyakit kardiovaskular, gagal ginjal, gangguan penglihatan, dan amputasi menjadikan penyakit ini prioritas kesehatan masyarakat.
Tujuan penelitian: Menganalisis determinan status diabetes menggunakan proportional odds model, menginterpretasikan pengaruh tiap prediktor melalui odds ratio, dan mengevaluasi performa klasifikasi model.
๐ CDC Diabetes Health Indicators BRFSS 2015 โ Tersedia di UCI Machine Learning Repository. Survei diselenggarakan oleh Centers for Disease Control and Prevention (CDC) Amerika Serikat.
| Atribut | Keterangan |
|---|---|
| Sumber | UCI Machine Learning Repository / CDC BRFSS |
| Jumlah Observasi | 253.680 responden |
| Variabel Respons | 1 (Status Diabetes โ 3 kategori ordinal) |
| Variabel Prediktor | 11 variabel (metabolik, perilaku, sosial-ekonomi) |
| Institusi | Centers for Disease Control and Prevention (CDC) |
| Variabel | Keterangan | Skala | Peran |
|---|---|---|---|
| Diabetes_012 | Status diabetes (0=Tidak, 1=Predia, 2=Diabetes) | Ordinal | Respons |
| HighBP | Status hipertensi | Nominal | Prediktor |
| HighChol | Status kolesterol tinggi | Nominal | Prediktor |
| BMI | Indeks Massa Tubuh (kg/mยฒ) | Numerik | Prediktor |
| Smoker | Status merokok | Nominal | Prediktor |
| HvyAlcoholConsump | Konsumsi alkohol berlebihan | Nominal | Prediktor |
| PhysActivity | Aktivitas fisik | Nominal | Prediktor |
| AnyHealthCare | Kepemilikan jaminan kesehatan | Nominal | Prediktor |
| Age | Kelompok usia (13 level) | Ordinal | Prediktor |
| Sex | Jenis kelamin | Nominal | Prediktor |
| Income | Tingkat pendapatan (8 level) | Ordinal | Prediktor |
| MentalHealth | Hari gangguan kesehatan mental (0โ30) | Numerik | Prediktor |
Model logit kumulatif (McCullagh, 1980):
\[\log\!\left(\frac{P(Y \leq j)}{P(Y > j)}\right) = \alpha_j - \sum_{k=1}^{p}\beta_k X_k, \quad j=1,\ldots,J-1\]
Parameter diestimasi via Maximum Likelihood Estimation (MLE). Interpretasi menggunakan Odds Ratio = \(e^{\hat\beta_k}\):
โ ๏ธ Ketidakseimbangan Kelas: Prediabetes hanya 1,83% (4.631 obs.) dari total sampel, sementara tidak-diabetes mendominasi 84,24%. Ketidakseimbangan ini akan memengaruhi performa klasifikasi.
| Variabel | Minimum | Median | Rata-rata | Maksimum |
|---|---|---|---|---|
| BMI (kg/mยฒ) | 12 | 27 | 23.38 | 98 |
| MentalHealth (hari/bulan) | 0 | 0 | 3.19 | 30 |
โ Asumsi Terpenuhi: Seluruh nilai VIF < 2, jauh di bawah batas kritis 5. Tidak terdapat korelasi kuat antar variabel prediktor.
๐ Mengapa Parallel Lines Penting? Asumsi proportional odds mensyaratkan bahwa pengaruh setiap prediktor terhadap log-odds bersifat konstan di semua cut-point kategori respons. Secara grafis, ini berarti garis logit kumulatif untuk setiap kategori harus sejajar (paralel) dan tidak berpotongan. Bila garis paralel โ asumsi terpenuhi; bila berpotongan/menyimpang jauh โ asumsi dilanggar.
| Variabel | LRT | p-value | Status |
|---|---|---|---|
| HighBP | 79.72 | <0.001 | โ Dilanggar |
| HighChol | 0.00 | 0.980 | โ Terpenuhi |
| BMI | 1.70 | 0.190 | โ Terpenuhi |
| Smoker | 2.70 | 0.100 | โ Terpenuhi |
| HvyAlchConsump | 32.93 | <0.001 | โ Dilanggar |
| PhysActivity | 2.82 | 0.092 | โ Terpenuhi |
| AnyHealthCare | 17.00 | <0.001 | โ Dilanggar |
| Age | 74.02 | <0.001 | โ Dilanggar |
| Sex | 26.94 | <0.001 | โ Dilanggar |
| Income | 17.40 | 0.015 | โ Dilanggar |
| MentalHealth | 18.89 | <0.001 | โ Dilanggar |
โ Tolak Hโ: Gยฒ = 39.591,13, df = 28, p-value < 0,001. Minimal satu variabel prediktor berpengaruh signifikan secara simultan terhadap status diabetes. Penurunan deviasi sebesar ~39.591 menunjukkan peningkatan fit model yang substansial.
| Variabel | Koefisien | Wald Stat | p-value | Signifikan |
|---|---|---|---|---|
| HighBP | 0.8781 | 4247.22 | <0.001 | โ Ya | |
| HighChol | 0.6574 | 2729.48 | <0.001 | โ Ya | |
| BMI | 0.0681 | 6204.61 | <0.001 | โ Ya | |
| Smoker | 0.0567 | 21.64 | <0.001 | โ Ya | |
| HvyAlchConsump | -0.7723 | 500.21 | <0.001 | โ Ya | |
| PhysActivity | -0.2377 | 333.45 | <0.001 | โ Ya | |
| AnyHealthCare | 0.1018 | 11.42 | <0.001 | โ Ya | |
| Age2โ13 | 0.27โ2.18 | 4.37โ422.54 | <0.001 | โ Ya | |
| Sex (Laki-laki) | 0.2902 | 555.05 | <0.001 | โ Ya | |
| Income2โ8 | -0.07 s.d. -0.95 | 4.27โ1099.20 | <0.001 | โ Ya | |
| MentalHealth | 0.0118 | 252.56 | <0.001 | โ Ya | |
๐ Cara Membaca Odds Ratio (OR): OR menyatakan berapa kali lipat peluang responden berada pada kategori status diabetes yang lebih tinggi (prediabetes atau diabetes) dibandingkan kategori referensi, dengan asumsi variabel lain konstan.
๐ Peningkatan BMI โ probabilitas diabetes naik, probabilitas tidak-diabetes turun. Kedua kurva berpotongan pada BMI โ 50. Probabilitas prediabetes tetap rendah di seluruh rentang BMI, konsisten dengan kondisi ketidakseimbangan kelas.
| Aktual โ / Prediksi โ | Tidak Diabetes | Prediabetes | Diabetes |
|---|---|---|---|
| Tidak Diabetes | 210.511 | 0 | 3.192 |
| Prediabetes | 4.372 | 0 | 259 |
| Diabetes | 31.435 | 0 | 3.911 |
โ ๏ธ Class Imbalance: Model tidak mampu mengidentifikasi prediabetes (sensitivitas = 0%). Diperlukan teknik penyeimbangan data seperti SMOTE atau oversampling untuk penelitian selanjutnya.
โ
Faktor Risiko (OR > 1)
๐ด Hipertensi โ OR
= 2.406
๐ด Kolesterol Tinggi โ OR =
1.930
๐ด Jenis Kelamin Laki-laki โ OR =
1.337
๐ด BMI (per 1 unit) โ OR =
1.071
๐ด Merokok โ OR = 1.058
๐ด Kesehatan Mental โ OR = 1.012
๐ด Kepemilikan
Yankes โ OR = 1.107
๐ก Faktor Protektif (OR < 1)
๐ข Konsumsi
Alkohol Berat โ OR = 0.462
๐ข Pendapatan โฅ $75K โ
OR = 0.386
๐ข Aktivitas Fisik โ OR =
0.788
Kondisi sosial-ekonomi yang lebih
baik dan gaya hidup aktif berkaitan dengan risiko diabetes lebih
rendah.
๐ Simpulan Akhir: Regresi logistik ordinal efektif mengidentifikasi determinan status diabetes sekaligus mempertahankan struktur ordinal variabel respons. Model menghasilkan akurasi 84,52%, signifikan secara simultan (LRT, p < 0,001) dan parsial (Wald Test, p < 0,05) untuk seluruh prediktor.
๐ฌ Rekomendasi Penelitian Selanjutnya: Partial Proportional Odds Generalized Ordered Logit SMOTE / Oversampling Data Longitudinal