Analisis Determinan Status Diabetes
Menggunakan Regresi Logistik Ordinal

Pretri Seveny Yasyaf ย ยทย  Mutiara Meisya Fadila ย ยทย  Universitas Padjadjaran ย ยทย  2026

Diabetes Melitus Regresi Logistik Ordinal BRFSS 2015 Odds Ratio CDC Dataset

๐Ÿ“„ ABSTRAK

Penelitian ini mengidentifikasi faktor penentu status diabetes menggunakan regresi logistik ordinal pada data Diabetes Health Indicators BRFSS 2015 (n = 253.680). Variabel respons terdiri atas tiga kategori: tidak diabetes, prediabetes, dan diabetes. Sebelas variabel prediktor mencakup kondisi metabolik, perilaku, dan sosial-ekonomi dianalisis secara simultan dan parsial. Seluruh variabel prediktor terbukti signifikan (p < 0,05). Hipertensi merupakan faktor terkuat (OR = 2,406), sementara aktivitas fisik dan pendapatan tinggi bersifat protektif. Model mencapai akurasi klasifikasi 84,52%.


1. Pendahuluan

๐ŸŒ Konteks Global: WHO mencatat lonjakan penderita diabetes dari 200 juta (1990) menjadi 830 juta (2022). IDF memproyeksikan angka ini akan mencapai 853 juta pada 2050.

Diabetes melitus merupakan tantangan kesehatan global yang dipengaruhi faktor demografis, perilaku, dan kondisi kesehatan individu. Komplikasi seperti penyakit kardiovaskular, gagal ginjal, gangguan penglihatan, dan amputasi menjadikan penyakit ini prioritas kesehatan masyarakat.

โš  Masalah Metodologis
Regresi Biner
Mengabaikan tahap prediabetes yang penting sebagai kategori transisi.
โœ… Solusi
Regresi Ordinal
Mempertahankan struktur urutan: tidak diabetes โ†’ prediabetes โ†’ diabetes.

Tujuan penelitian: Menganalisis determinan status diabetes menggunakan proportional odds model, menginterpretasikan pengaruh tiap prediktor melalui odds ratio, dan mengevaluasi performa klasifikasi model.


2. Data & Metode

2.1 Sumber Data

๐Ÿ“Š CDC Diabetes Health Indicators BRFSS 2015 โ€” Tersedia di UCI Machine Learning Repository. Survei diselenggarakan oleh Centers for Disease Control and Prevention (CDC) Amerika Serikat.

Atribut Keterangan
Sumber UCI Machine Learning Repository / CDC BRFSS
Jumlah Observasi 253.680 responden
Variabel Respons 1 (Status Diabetes โ€” 3 kategori ordinal)
Variabel Prediktor 11 variabel (metabolik, perilaku, sosial-ekonomi)
Institusi Centers for Disease Control and Prevention (CDC)

2.2 Variabel Penelitian

Variabel Keterangan Skala Peran
Diabetes_012 Status diabetes (0=Tidak, 1=Predia, 2=Diabetes) Ordinal Respons
HighBP Status hipertensi Nominal Prediktor
HighChol Status kolesterol tinggi Nominal Prediktor
BMI Indeks Massa Tubuh (kg/mยฒ) Numerik Prediktor
Smoker Status merokok Nominal Prediktor
HvyAlcoholConsump Konsumsi alkohol berlebihan Nominal Prediktor
PhysActivity Aktivitas fisik Nominal Prediktor
AnyHealthCare Kepemilikan jaminan kesehatan Nominal Prediktor
Age Kelompok usia (13 level) Ordinal Prediktor
Sex Jenis kelamin Nominal Prediktor
Income Tingkat pendapatan (8 level) Ordinal Prediktor
MentalHealth Hari gangguan kesehatan mental (0โ€“30) Numerik Prediktor

2.3 Model: Proportional Odds

Model logit kumulatif (McCullagh, 1980):

\[\log\!\left(\frac{P(Y \leq j)}{P(Y > j)}\right) = \alpha_j - \sum_{k=1}^{p}\beta_k X_k, \quad j=1,\ldots,J-1\]

Parameter diestimasi via Maximum Likelihood Estimation (MLE). Interpretasi menggunakan Odds Ratio = \(e^{\hat\beta_k}\):

  • OR > 1 โ†’ meningkatkan kecenderungan berada pada kategori status diabetes lebih tinggi
  • OR < 1 โ†’ menurunkan kecenderungan tersebut

3. Statistik Deskriptif

3.1 Distribusi Status Diabetes

โš ๏ธ Ketidakseimbangan Kelas: Prediabetes hanya 1,83% (4.631 obs.) dari total sampel, sementara tidak-diabetes mendominasi 84,24%. Ketidakseimbangan ini akan memengaruhi performa klasifikasi.

3.2 Statistik Variabel Numerik

Variabel Minimum Median Rata-rata Maksimum
BMI (kg/mยฒ) 12 27 23.38 98
MentalHealth (hari/bulan) 0 0 3.19 30

3.3 Distribusi Variabel Kategorik


4. Pemeriksaan Asumsi

4.1 Multikolinearitas (VIF)

โœ… Asumsi Terpenuhi: Seluruh nilai VIF < 2, jauh di bawah batas kritis 5. Tidak terdapat korelasi kuat antar variabel prediktor.

4.2 Asumsi Proportional Odds โ€” Visualisasi Parallel Lines

๐Ÿ“Œ Mengapa Parallel Lines Penting? Asumsi proportional odds mensyaratkan bahwa pengaruh setiap prediktor terhadap log-odds bersifat konstan di semua cut-point kategori respons. Secara grafis, ini berarti garis logit kumulatif untuk setiap kategori harus sejajar (paralel) dan tidak berpotongan. Bila garis paralel โ†’ asumsi terpenuhi; bila berpotongan/menyimpang jauh โ†’ asumsi dilanggar.

โœ… Interpretasi Plot:
  • Kedua garis logit kumulatif (P(Y โ‰ค Tidak Diabetes) dan P(Y โ‰ค Prediabetes)) berjalan sejajar dan tidak berpotongan sepanjang rentang BMI.
  • Jarak vertikal antar garis bersifat konstan (= ฯ„โ‚‚ โˆ’ ฯ„โ‚ = 0,17), mencerminkan bahwa slope koefisien BMI sama di kedua cut-point.
  • Kemiringan negatif pada kedua garis menunjukkan semakin tinggi BMI โ†’ log-odds berada di kategori lebih rendah (tidak diabetes) semakin kecil, artinya risiko diabetes meningkat.
  • Pola paralel ini mengkonfirmasi bahwa asumsi proportional odds terpenuhi secara visual untuk variabel BMI sebagai representasi model.

4.3 Asumsi Proportional Odds โ€” Nominal Test (Formal)

Variabel LRT p-value Status
HighBP 79.72 <0.001 โš  Dilanggar
HighChol 0.00 0.980 โœ“ Terpenuhi
BMI 1.70 0.190 โœ“ Terpenuhi
Smoker 2.70 0.100 โœ“ Terpenuhi
HvyAlchConsump 32.93 <0.001 โš  Dilanggar
PhysActivity 2.82 0.092 โœ“ Terpenuhi
AnyHealthCare 17.00 <0.001 โš  Dilanggar
Age 74.02 <0.001 โš  Dilanggar
Sex 26.94 <0.001 โš  Dilanggar
Income 17.40 0.015 โš  Dilanggar
MentalHealth 18.89 <0.001 โš  Dilanggar
โš ๏ธ Catatan Penting: Meskipun beberapa variabel melanggar asumsi secara formal (p-value < 0,05), terdapat dua pertimbangan mengapa pemodelan tetap dilanjutkan:
  1. Sensitivitas ukuran sampel besar: Pada n > 200.000, uji formal cenderung oversensitive dan dapat mendeteksi pelanggaran yang sangat kecil (trivial) sebagai signifikan secara statistik, meski tidak bermakna secara praktis.
  2. Konfirmasi visual: Grafik parallel lines menunjukkan pola yang relatif sejajar, mendukung keputusan untuk tetap menggunakan model POM sebagai pendekatan yang memadai.

5. Uji Signifikansi Model

5.1 Likelihood Ratio Test โ€” Simultan

โœ… Tolak Hโ‚€: Gยฒ = 39.591,13, df = 28, p-value < 0,001. Minimal satu variabel prediktor berpengaruh signifikan secara simultan terhadap status diabetes. Penurunan deviasi sebesar ~39.591 menunjukkan peningkatan fit model yang substansial.

5.2 Wald Test โ€” Uji Parsial

Variabel Koefisien Wald Stat p-value Signifikan
HighBP 0.8781 4247.22 <0.001 โœ… Ya |
HighChol 0.6574 2729.48 <0.001 โœ… Ya |
BMI 0.0681 6204.61 <0.001 โœ… Ya |
Smoker 0.0567 21.64 <0.001 โœ… Ya |
HvyAlchConsump -0.7723 500.21 <0.001 โœ… Ya |
PhysActivity -0.2377 333.45 <0.001 โœ… Ya |
AnyHealthCare 0.1018 11.42 <0.001 โœ… Ya |
Age2โ€“13 0.27โ€“2.18 4.37โ€“422.54 <0.001 โœ… Ya |
Sex (Laki-laki) 0.2902 555.05 <0.001 โœ… Ya |
Income2โ€“8 -0.07 s.d. -0.95 4.27โ€“1099.20 <0.001 โœ… Ya |
MentalHealth 0.0118 252.56 <0.001 โœ… Ya |

6. Hasil Utama โ€” Odds Ratio

6.1 Forest Plot Odds Ratio

6.2 Interpretasi Odds Ratio per Variabel

๐Ÿ“– Cara Membaca Odds Ratio (OR): OR menyatakan berapa kali lipat peluang responden berada pada kategori status diabetes yang lebih tinggi (prediabetes atau diabetes) dibandingkan kategori referensi, dengan asumsi variabel lain konstan.

๐Ÿ”ด Tekanan Darah Tinggi (HighBP)
OR = 2.406
  • Faktor risiko terkuat dalam model.
  • Responden hipertensi memiliki peluang 2,41ร— lebih besar berada pada status diabetes lebih tinggi dibanding yang tidak hipertensi.
  • Hipertensi dan diabetes kerap terjadi bersamaan (comorbid) karena resistensi insulin dapat meningkatkan tekanan darah.
  • 95% CI: 2,344โ€“2,471 โ†’ interval sempit, estimasi sangat presisi.
๐Ÿ”ด Kolesterol Tinggi (HighChol)
OR = 1.930
  • Faktor risiko terkuat kedua setelah hipertensi.
  • Responden dengan kolesterol tinggi memiliki peluang 1,93ร— lebih besar berada pada kategori status diabetes lebih tinggi.
  • Dislipidemia berkaitan erat dengan resistensi insulin dan sindrom metabolik.
  • 95% CI: 1,883โ€“1,978 โ†’ signifikan dan konsisten.
๐Ÿ”ด Indeks Massa Tubuh (BMI)
OR = 1.071 per +1 unit
  • Variabel BMI berpengaruh signifikan terhadap status diabetes (p-value < 0,001).
  • Setiap peningkatan satu satuan BMI meningkatkan peluang responden berada pada kategori status diabetes yang lebih tinggi sebesar 1,07 kali (OR = 1,0705).
  • Obesitas meningkatkan resistensi insulin dan beban kerja pankreas.
  • Dampak bersifat kumulatif: kenaikan 10 unit BMI meningkatkan odds ~2ร— (1,071ยนโฐ โ‰ˆ 1,99).
๐Ÿ”ด Status Merokok (Smoker)
OR = 1.058
  • Variabel status merokok berpengaruh signifikan terhadap status diabetes (p-value < 0,001).
  • Responden yang memiliki riwayat merokok memiliki peluang 1,06 kali lebih besar untuk berada pada kategori status diabetes yang lebih tinggi dibandingkan responden yang tidak merokok (OR = 1,0583).
  • Nikotin mengganggu sensitivitas insulin dan meningkatkan kadar kortisol.
  • 95% CI: 1,033โ€“1,084 โ†’ batas bawah CI > 1, efek nyata secara statistik.
๐Ÿ”ด Jenis Kelamin Laki-laki (Sex)
OR = 1.337
  • Laki-laki memiliki peluang 1,34ร— lebih besar berada pada kategori diabetes lebih tinggi dibanding perempuan.
  • Perbedaan distribusi lemak tubuh (visceral fat lebih besar pada laki-laki) berperan dalam resistensi insulin.
  • Faktor perilaku (pola makan, aktivitas) juga berkontribusi pada perbedaan ini.
๐Ÿ”ด Kepemilikan Layanan Kesehatan (AnyHealthCare)
OR = 1.107
  • Variabel kepemilikan layanan kesehatan berpengaruh signifikan terhadap status diabetes (p-value < 0,001).
  • Responden yang memiliki akses terhadap layanan kesehatan memiliki peluang 1,107 kali lebih besar untuk berada pada kategori status diabetes yang lebih tinggi (prediabetes atau diabetes) dibandingkan responden yang tidak memiliki akses terhadap layanan kesehatan (OR = 1,107).
  • 95% CI: 1,044โ€“1,175 โ†’ signifikan secara statistik.
๐Ÿ”ด Kesehatan Mental (MentalHealth)
OR = 1.012 per +1 hari
  • Setiap tambahan 1 hari gangguan kesehatan mental dalam sebulan meningkatkan odds 1,2%.
  • Efek kumulatif signifikan: 30 hari gangguan mental โ†’ odds meningkat ~43% (1,012ยณโฐ โ‰ˆ 1,43).
  • Stres kronis meningkatkan kortisol โ†’ resistensi insulin โ†’ risiko diabetes meningkat.
  • Depresi dan diabetes memiliki hubungan bidireksional yang telah banyak diteliti.
๐ŸŸข Aktivitas Fisik (PhysActivity)
OR = 0.788
  • Responden yang tidak berolahraga memiliki odds 1,27ร— lebih besar (1/0,788) berada pada kategori diabetes lebih tinggi.
  • Dengan kata lain, aktif berolahraga mengurangi odds diabetes sebesar 21,2%.
  • Aktivitas fisik meningkatkan sensitivitas insulin dan membantu mengontrol berat badan.
  • Merupakan faktor protektif yang dapat dimodifikasi โ€” intervensi berbasis aktivitas fisik sangat relevan.
๐ŸŸข Konsumsi Alkohol Berat (HvyAlcoholConsump)
OR = 0.462
  • Faktor protektif terkuat dalam model (OR paling jauh dari 1 ke arah protektif).
  • Peminum berat memiliki peluang lebih rendah 53,8% berada di kategori diabetes lebih tinggi.
  • Hasil ini counterintuitive dan perlu interpretasi hati-hati: kemungkinan survivor bias (peminum berat dengan diabetes sudah tidak tersurvei) atau efek metabolik alkohol yang kompleks terhadap glikemia.
  • Tidak boleh diinterpretasikan bahwa konsumsi alkohol berat bermanfaat bagi kesehatan.

6.3 Tren OR Berdasarkan Usia

๐Ÿ“Œ Interpretasi Tren Usia:
  • Odds ratio meningkat konsisten seiring bertambahnya kelompok usia (referensi: usia 18โ€“24 tahun, OR = 1).
  • Puncak risiko ada pada kelompok usia 70โ€“74 tahun (OR = 8,849) โ†’ peluang berada di kategori diabetes 8,8ร— lebih besar dibanding usia 18โ€“24 tahun.
  • Tren sedikit menurun di kelompok โ‰ฅ75 tahun (OR = 7,713) โ€” kemungkinan karena survivor bias: individu dengan diabetes berat di usia tersebut mungkin tidak lagi tersurvei.
  • Pola ini menunjukkan penuaan sebagai faktor risiko kumulatif yang tidak dapat dimodifikasi, namun dapat diantisipasi dengan skrining dini di kelompok usia >40 tahun.

6.4 Tren OR Berdasarkan Pendapatan

๐Ÿ“Œ Interpretasi Tren Pendapatan:
  • Referensi adalah kelompok pendapatan terendah (< $10.000/tahun, OR = 1).
  • OR menurun secara monoton dari OR = 0,934 (pendapatan $10โ€“15K) hingga OR = 0,386 (pendapatan โ‰ฅ $75K).
  • Responden berpendapatan tertinggi (โ‰ฅ $75K) memiliki peluang 61,4% lebih rendah (1 โˆ’ 0,386) berada di kategori diabetes lebih tinggi dibanding kelompok terendah.
  • Hubungan negatif ini mencerminkan determinan sosial kesehatan: pendapatan lebih tinggi berkaitan dengan akses gizi lebih baik, lebih sedikit stres finansial, dan fasilitas olahraga yang lebih memadai.
  • Gradien sosial-ekonomi pada diabetes konsisten dengan literatur global tentang ketimpangan kesehatan.

7. Prediksi Probabilitas

๐Ÿ“ˆ Peningkatan BMI โ†’ probabilitas diabetes naik, probabilitas tidak-diabetes turun. Kedua kurva berpotongan pada BMI โ‰ˆ 50. Probabilitas prediabetes tetap rendah di seluruh rentang BMI, konsisten dengan kondisi ketidakseimbangan kelas.


8. Evaluasi Performa Model

8.1 Confusion Matrix

Aktual โ†“ / Prediksi โ†’ Tidak Diabetes Prediabetes Diabetes
Tidak Diabetes 210.511 0 3.192
Prediabetes 4.372 0 259
Diabetes 31.435 0 3.911

8.2 Ringkasan Performa

84,52%
Akurasi Keseluruhan
98,51%
Sensitivitas
Tidak Diabetes
0%
Sensitivitas
Prediabetes
11,06%
Sensitivitas
Diabetes

โš ๏ธ Class Imbalance: Model tidak mampu mengidentifikasi prediabetes (sensitivitas = 0%). Diperlukan teknik penyeimbangan data seperti SMOTE atau oversampling untuk penelitian selanjutnya.


9. Kesimpulan

โœ… Faktor Risiko (OR > 1)
๐Ÿ”ด Hipertensi โ€” OR = 2.406
๐Ÿ”ด Kolesterol Tinggi โ€” OR = 1.930
๐Ÿ”ด Jenis Kelamin Laki-laki โ€” OR = 1.337
๐Ÿ”ด BMI (per 1 unit) โ€” OR = 1.071
๐Ÿ”ด Merokok โ€” OR = 1.058
๐Ÿ”ด Kesehatan Mental โ€” OR = 1.012
๐Ÿ”ด Kepemilikan Yankes โ€” OR = 1.107

๐Ÿ›ก Faktor Protektif (OR < 1)
๐ŸŸข Konsumsi Alkohol Berat โ€” OR = 0.462
๐ŸŸข Pendapatan โ‰ฅ $75K โ€” OR = 0.386
๐ŸŸข Aktivitas Fisik โ€” OR = 0.788

Kondisi sosial-ekonomi yang lebih baik dan gaya hidup aktif berkaitan dengan risiko diabetes lebih rendah.

๐Ÿ Simpulan Akhir: Regresi logistik ordinal efektif mengidentifikasi determinan status diabetes sekaligus mempertahankan struktur ordinal variabel respons. Model menghasilkan akurasi 84,52%, signifikan secara simultan (LRT, p < 0,001) dan parsial (Wald Test, p < 0,05) untuk seluruh prediktor.

๐Ÿ”ฌ Rekomendasi Penelitian Selanjutnya: Partial Proportional Odds Generalized Ordered Logit SMOTE / Oversampling Data Longitudinal