Dataset Sleep Health and Lifestyle adalah data publik yang berisi 374 observasi dan 13 variabel terkait kebiasaan tidur dan gaya hidup. Variabel dalam data ini meliputi Person Id, Gender, Age, Occupation, Sleep Duration, Quality of Sleep, Physical Activity Level, Stress Level, BMI Category, Blood Pressure, Heart Rate, Daily Steps, Sleep Disorder
Dataset yang digunakan: Sleep Health and Lifestyle Dataset
Jumlah Data: r nrow(sleep) baris.
Target Variabel: Sleep.Disorder (None, Insomnia, Sleep Apnea).
Preprocessing: * Imputasi nilai kosong (Missing Values) menggunakan Median & Modus.
Konversi tipe data.
Variabel Person.ID dihapus karena tidak memiliki kontribusi terhadap proses prediksi.
Variabel bertipe karakter dikonversi ke faktor untuk keperluan pemodelan menggunakan algoritma klasifikasi
Pemeriksaan Awal: Dilakukan pengecekan missing value (data kosong) pada seluruh atribut dataset.
Hasil Observasi: Kolom Missing_Awal menunjukkan angka 0 pada semua variabel.
Kesimpulan: Dataset dalam kondisi bersih (clean) dan lengkap.
Tindakan: Proses imputasi tidak diperlukan, namun algoritma tetap disiapkan sebagai langkah antisipasi.
Dataset dibagi menjadi:
Data Latih (Training Set)- 80% dari total data
Data Uji (Testing Set)- 20% dari total data
AkurasiModel: 0.9067(90.67%) Ini berarti 90.67% prediksi model sudah sesuai dengan label asli. Akurasi ini tergolong sangat baik, terutama untuk dataset dengan tiga kelas. Kappa: 0.8264 Kappa0.8264berarti kesepakatan antara prediksi model dan data asli sangat tinggi, jauh lebih baik dari padasekadar menebak.
Model menemukan bahwa tekanan darah adalah sinyal terkuat untuk membedakan orang sehat dengan penderita gangguan tidur.
Di posisi kedua dan ketiga ada Pekerjaan dan Usia. Ini menunjukkan bahwa lingkungan kerja dan faktor penuaan berkontribusi besar terhadap risiko gangguan tidur.
Dalam dataset ini, variabel target terbagi menjadi 3 kelas atau kategori:
Pertama adalah ‘None’, yaitu kelompok orang yang sehat atau tidur normal. ini adalah kelas yang paling mendominasi data.
Kedua adalah ‘Insomnia’, yaitu responden yang mengalami kesulitan tidur kronis.
ketiga adalah ‘Sleep Apnea’, yaitu gangguan kesehatan serius di mana napas berhenti sejenak saat tidur.
Berdasarkan hasil analisis menggunakan metode pruning dengan parameter complexity parameter (CP) optimal sebesar 0.016, diperoleh bahwa struktur pohon keputusan tidak mengalami perubahan signifikan dibandingkan model awal. Hal ini terjadi karena model awal sudah membentuk pohon yang cukup seder hana dan tidak menunjukkan indikasi overfitting.
Hyperparameter tuning menunjukkan bahwa nilai cp = 0.016 memberikan performa terbaik untuk model CART, dengan akurasi dan kappa tertinggi dibandingkan nilai cp lainnya
Pembeda Utama (BMI): Status berat badan menjadi filter pertama.Jalur Sehat: Jika Tidak Overweight dan Heart Rate normal (<77) \(\rightarrow\) diprediksi Sehat (None). Jalur Risiko: Jika Overweight \(\rightarrow\) masuk kelompok risiko tinggi Sleep Apnea.Detail Diagnosa: Variabel Tekanan Darah dan Langkah Harian digunakan untuk membedakan secara spesifik antara Insomnia dan Sleep Apnea pada kelompok berisiko.
Pra-pemrosesan data berhasil dilakukan sehingga dataset siap digunakan untuk pemodelan. Model Decision Tree mampu mengklasifikasikan gangguan tidur dengan akurasi yang baik. Fitur paling berpengaruh adalah Blood Pressure dan Occupation, disusul Age, BMI Category, dan Sleep Duration. Pruning tidak mengubah struktur pohon karena model sudah optimal, sedangkan hyperparameter tuning menghasilkan CP terbaik 0.016.