Klasifikasi Gangguan Tidur Berdasarkan Gaya Hidup Menggunakan Algoritma Decision Tree

Fachrizal Wisnu Pratama, Pramesyaila Hendri, Frizazki Al Fath

Kelompok 15

Latar Belakang Masalah

  • Gangguan Tidur Semakin Banyak Dialami Masyarakat.
  • Faktor (Gaya Hidup) Sangat Berpengaruh dalam Gangguan Tidur.
  • Analisis data dapat membantu memahami hubungan gaya hidup vs gangguan tidur.
  • Diperlukan model klasifikasi gangguan tidur berbasis gaya hidup.

Rumusan Masalah

  1. Faktor gaya hidup apa saja yang paling berpengaruh terhadap munculnya gangguan tidur?
  2. Bagaimana penerapan algoritma Decision Tree dapat digunakan untuk mmengklasifikasi gangguan tidur berdasarkan data gaya hidup seseorang?

Tujuan Penelitian

  1. Menganalisis hubungan antara gaya hidup dan gangguan tidur.
  2. Membangun model klasifikasi gangguan tidur menggunakan algoritma Decision Tree.
  3. Memberikan hasil analisis yang dapat digunakan untuk meningkatkan kesadaran masyarakat tentang pentingnya gaya hidup sehat terhadap kualitas tidur.

Dataset Sleep Health and Lifestyle

Dataset Sleep Health and Lifestyle adalah data publik yang berisi 374 observasi dan 13 variabel terkait kebiasaan tidur dan gaya hidup. Variabel dalam data ini meliputi Person Id, Gender, Age, Occupation, Sleep Duration, Quality of Sleep, Physical Activity Level, Stress Level, BMI Category, Blood Pressure, Heart Rate, Daily Steps, Sleep Disorder

Sekilas Dataset

Dataset yang digunakan: Sleep Health and Lifestyle Dataset

Jumlah Data: r nrow(sleep) baris.

Target Variabel: Sleep.Disorder (None, Insomnia, Sleep Apnea).

Preprocessing: * Imputasi nilai kosong (Missing Values) menggunakan Median & Modus.

Konversi tipe data.

Histogram Durasi Tidur

frekuensi kategori bmi

perbandingan disorder dan durasi tidur

Penghapusan Variabel

Variabel Person.ID dihapus karena tidak memiliki kontribusi terhadap proses prediksi.

Konversi Tipe Data (Encoding)

Variabel bertipe karakter dikonversi ke faktor untuk keperluan pemodelan menggunakan algoritma klasifikasi

data preprosessing/penanganan missing values

Pemeriksaan Awal: Dilakukan pengecekan missing value (data kosong) pada seluruh atribut dataset.

Hasil Observasi: Kolom Missing_Awal menunjukkan angka 0 pada semua variabel.

Kesimpulan: Dataset dalam kondisi bersih (clean) dan lengkap.

Tindakan: Proses imputasi tidak diperlukan, namun algoritma tetap disiapkan sebagai langkah antisipasi.

pembagian data spliting

Dataset dibagi menjadi:

  1. Data Latih (Training Set)- 80% dari total data

  2. Data Uji (Testing Set)- 20% dari total data

pembangunan model awal

matrix yang dihasilkan

matrix yang dihasilkan

AkurasiModel: 0.9067(90.67%) Ini berarti 90.67% prediksi model sudah sesuai dengan label asli. Akurasi ini tergolong sangat baik, terutama untuk dataset dengan tiga kelas. Kappa: 0.8264 Kappa0.8264berarti kesepakatan antara prediksi model dan data asli sangat tinggi, jauh lebih baik dari padasekadar menebak.

Feature Importance

Feature Importance

Model menemukan bahwa tekanan darah adalah sinyal terkuat untuk membedakan orang sehat dengan penderita gangguan tidur.

Di posisi kedua dan ketiga ada Pekerjaan dan Usia. Ini menunjukkan bahwa lingkungan kerja dan faktor penuaan berkontribusi besar terhadap risiko gangguan tidur.

variable target

Dalam dataset ini, variabel target terbagi menjadi 3 kelas atau kategori:

Pertama adalah ‘None’, yaitu kelompok orang yang sehat atau tidur normal. ini adalah kelas yang paling mendominasi data.

Kedua adalah ‘Insomnia’, yaitu responden yang mengalami kesulitan tidur kronis.

ketiga adalah ‘Sleep Apnea’, yaitu gangguan kesehatan serius di mana napas berhenti sejenak saat tidur.

perbaikan pemodelan decision tree

pruning pohon

pruning pohon

Berdasarkan hasil analisis menggunakan metode pruning dengan parameter complexity parameter (CP) optimal sebesar 0.016, diperoleh bahwa struktur pohon keputusan tidak mengalami perubahan signifikan dibandingkan model awal. Hal ini terjadi karena model awal sudah membentuk pohon yang cukup seder hana dan tidak menunjukkan indikasi overfitting.

Hyperparameter Tuning

Hyperparameter Tuning

Hyperparameter tuning menunjukkan bahwa nilai cp = 0.016 memberikan performa terbaik untuk model CART, dengan akurasi dan kappa tertinggi dibandingkan nilai cp lainnya

hasil pemodelan decision tree

Pembeda Utama (BMI): Status berat badan menjadi filter pertama.Jalur Sehat: Jika Tidak Overweight dan Heart Rate normal (<77) \(\rightarrow\) diprediksi Sehat (None). Jalur Risiko: Jika Overweight \(\rightarrow\) masuk kelompok risiko tinggi Sleep Apnea.Detail Diagnosa: Variabel Tekanan Darah dan Langkah Harian digunakan untuk membedakan secara spesifik antara Insomnia dan Sleep Apnea pada kelompok berisiko.

Kesimpulan

Pra-pemrosesan data berhasil dilakukan sehingga dataset siap digunakan untuk pemodelan. Model Decision Tree mampu mengklasifikasikan gangguan tidur dengan akurasi yang baik. Fitur paling berpengaruh adalah Blood Pressure dan Occupation, disusul Age, BMI Category, dan Sleep Duration. Pruning tidak mengubah struktur pohon karena model sudah optimal, sedangkan hyperparameter tuning menghasilkan CP terbaik 0.016.

Terima Kasih!