| Nama Lengkap | NIM | Program Studi |
|---|---|---|
| Dwi Sri Yanti Manullang | 52240030 | Sains Data |
| Chello Frhino Mike Mandolang | 52240031 | Sains Data |
1. Konteks Dataset dan Tujuan Analitis
Dataset healthcare yang digunakan merepresentasikan aktivitas operasional dan kinerja layanan rumah sakit dalam periode waktu harian. Dataset ini mencakup informasi terkait jumlah kunjungan pasien, beban kerja staf medis, tingkat okupansi tempat tidur, biaya operasional, pendapatan, profitabilitas, kepuasan pasien, serta kategori risiko pasien dan status churn.
Tujuan utama analisis adalah untuk:
Memahami pola operasional rumah sakit dari sisi pelayanan dan keuangan.
Mengidentifikasi hubungan antara beban operasional, kualitas layanan, dan kepuasan pasien.
Menganalisis faktor-faktor yang berkontribusi terhadap churn pasien.
Mengembangkan model analitis dan prediktif untuk mendukung pengambilan keputusan berbasis data.
Analisis ini diharapkan dapat memberikan wawasan strategis terkait efisiensi operasional, kualitas pelayanan, serta potensi peningkatan kinerja rumah sakit.
2. Struktur Dataset dan Jenis Variabel
Dataset terdiri dari observasi harian dengan struktur variabel sebagai berikut:
A. Variabel Waktu
B. Variabel Numerik (Continuous)
Variabel numerik merepresentasikan aspek operasional, finansial, dan kualitas layanan, antara lain:
patient_visits : jumlah kunjungan pasien harian
staff_workload : tingkat beban kerja staf
avg_treatment_cost : rata-rata biaya perawatan
bed_occupancy_rate : tingkat okupansi tempat tidur (%)
treatment_intensity : intensitas layanan medis
operational_cost : biaya operasional
num_procedures : jumlah tindakan medis
patient_satisfaction : skor kepuasan pasien
efficiency_index : indeks efisiensi operasional
revenue : pendapatan
profit : laba rumah sakit
C. Variabel Kategorikal
patient_category : kategori risiko pasien (Low Risk, Medium Risk, High Risk)
hospital_region : wilayah rumah sakit
churn : status pasien berhenti menggunakan layanan (Yes/No)
Variabel churn digunakan sebagai target utama dalam analisis klasifikasi.
3. Statistik Deskriptif
Analisis statistik deskriptif digunakan untuk memberikan gambaran umum karakteristik data.
Beberapa temuan utama yang diperoleh:
A. Kunjungan pasien (patient_visits) menunjukkan variasi yang cukup tinggi antar hari, yang mengindikasikan fluktuasi permintaan layanan kesehatan.
B. Biaya operasional (operational_cost) dan pendapatan (revenue) memiliki rentang nilai yang besar, menunjukkan perbedaan intensitas aktivitas operasional antar periode.
C. Skor kepuasan pasien (patient_satisfaction) berada pada rentang menengah hingga tinggi, yang mengindikasikan kualitas layanan relatif stabil namun masih memiliki ruang untuk peningkatan.
D. Profit (profit) menunjukkan variasi signifikan, yang menandakan bahwa efisiensi operasional belum konsisten pada seluruh periode observasi.
Statistik ini menjadi dasar untuk analisis hubungan antar variabel dan pengembangan model prediktif.
4. Identifikasi dan bahas:
A. Identifikasi Nilai Hilang (Missing Value)
Pemeriksaan data menunjukkan bahwa beberapa variabel numerik, khususnya avg_treatment_cost, memiliki nilai yang hilang.
Keberadaan missing value berpotensi menyebabkan bias dalam analisis statistik dan pemodelan jika tidak ditangani dengan benar. Oleh karena itu, strategi penanganan yang digunakan adalah imputasi berbasis median untuk mempertahankan distribusi data dan mengurangi pengaruh outlier.
Pendekatan ini dipilih karena median lebih robust terhadap nilai ekstrem dibandingkan mean.
B. Identifikasi Nilai Penyimpangan (Outlier)
Deteksi outlier dilakukan pada variabel numerik utama seperti:
patient_visits
operational_cost
revenue
profit
Hasil eksplorasi menunjukkan adanya beberapa nilai ekstrem, terutama pada variabel finansial. Outlier ini mencerminkan periode dengan aktivitas operasional yang sangat tinggi atau kondisi khusus seperti lonjakan pasien.
Outlier tidak langsung dihapus, namun dianalisis secara kontekstual karena dapat merepresentasikan fenomena nyata yang relevan dalam sistem layanan kesehatan.
C. Analisis Distribusi Data
Distribusi variabel numerik menunjukkan karakteristik yang berbeda-beda:
A. Variabel seperti patient_visits dan num_procedures cenderung menunjukkan distribusi mendekati normal.
B. Variabel finansial seperti operational_cost dan revenue cenderung memiliki distribusi miring ke kanan (right-skewed), yang mengindikasikan adanya periode dengan nilai sangat tinggi.
C. Variabel kepuasan pasien memiliki distribusi yang relatif terpusat, menunjukkan konsistensi persepsi kualitas layanan.
Pemahaman distribusi ini penting untuk pemilihan metode analisis dan asumsi model selanjutnya.
5. Visualisasi Data Eksploratori
Untuk mendukung analisis eksploratori, digunakan minimal lima visualisasi utama, yaitu:
A. Grafik tren kunjungan pasien berdasarkan waktu.
B. Histogram distribusi kepuasan pasien.
C. Boxplot biaya operasional untuk mendeteksi outlier.
D. Scatter plot hubungan antara kunjungan pasien dan pendapatan.
E. Diagram batang distribusi kategori churn pasien.
Visualisasi ini memberikan gambaran intuitif terhadap pola data dan mendukung interpretasi hasil analisis.
1. Identifikasi Variabel Kunci
Berdasarkan tujuan analisis dan struktur dataset, beberapa variabel kunci yang dianalisis meliputi:
A. Variabel Operasional
patient_visits
staff_workload
bed_occupancy_rate
num_procedures
B. Variabel Finansial
operational_cost
revenue
profit
C. Variabel Kualitas Layanan
patient_satisfaction
treatment_intensity
efficiency_index
D. Variabel Target Kategorikal
churn
patient_category
Pemilihan variabel ini didasarkan pada keterkaitan langsung antara beban operasional, kualitas layanan, performa keuangan, dan perilaku pasien.
2. Analisis Korelasi Antar Variabel Numerik
Analisis korelasi digunakan untuk mengidentifikasi hubungan linier antar variabel numerik utama.
Beberapa pola hubungan yang diamati:
A. Kunjungan pasien (patient_visits) dan pendapatan (revenue) menunjukkan hubungan positif, yang mengindikasikan bahwa peningkatan jumlah pasien berkontribusi langsung terhadap peningkatan pendapatan rumah sakit.
B. Beban kerja staf (staff_workload) dan biaya operasional (operational_cost) juga menunjukkan korelasi positif, yang mencerminkan bahwa peningkatan aktivitas layanan meningkatkan kebutuhan sumber daya dan biaya operasional.
C. Indeks efisiensi (efficiency_index) dan profit (profit) menunjukkan hubungan positif moderat, yang mengindikasikan bahwa efisiensi operasional berperan dalam meningkatkan kinerja keuangan.
Analisis ini memberikan dasar untuk pemilihan variabel dalam pemodelan regresi dan prediktif.
3. Analisis Regresi Awal (Exploratory Regression)
Sebagai eksplorasi awal hubungan sebab-akibat, dilakukan analisis regresi linear sederhana dan multivariat dengan tujuan memahami faktor yang memengaruhi profit dan kepuasan pasien.
Contoh hubungan yang dianalisis:
A. Profit sebagai variabel dependen
Variabel independen utama:
patient_visits
operational_cost
efficiency_index
Hasil analisis menunjukkan bahwa:
patient_visits memiliki pengaruh positif terhadap profit, yang menunjukkan bahwa volume layanan menjadi faktor utama pembentuk pendapatan.
operational_cost memiliki pengaruh negatif, yang mengindikasikan bahwa pengendalian biaya merupakan faktor penting dalam menjaga profitabilitas.
efficiency_index berkontribusi positif, yang menegaskan peran efisiensi operasional dalam meningkatkan kinerja keuangan.
4. Analisis Tabulasi Silang (Cross Tabulation)
Untuk variabel kategorikal, digunakan tabulasi silang untuk mengevaluasi pola hubungan antar kategori.
Contoh analisis:
A. Hubungan antara patient_category dan churn
Hasil tabulasi menunjukkan bahwa:
Pasien dengan kategori High Risk memiliki proporsi churn yang lebih tinggi dibandingkan kategori risiko lainnya.
Pasien kategori Low Risk menunjukkan tingkat retensi yang lebih baik.
Temuan ini mengindikasikan bahwa kelompok pasien berisiko tinggi memerlukan perhatian khusus dalam strategi pelayanan dan retensi.
5. Identifikasi Masalah Data Potensial
Dalam analisis hubungan antar variabel, ditemukan beberapa potensi permasalahan data yang perlu diperhatikan:
A. Multikolinearitas
Beberapa variabel operasional seperti:
patient_visits
num_procedures
staff_workload
memiliki keterkaitan yang kuat satu sama lain. Hal ini berpotensi menyebabkan multikolinearitas dalam model regresi multivariat.
Multikolinearitas dapat menyebabkan koefisien regresi menjadi tidak stabil dan sulit diinterpretasikan. Oleh karena itu, diperlukan pemeriksaan lanjutan menggunakan Variance Inflation Factor (VIF) pada tahap pemodelan.
B. Heterogenitas Varians (Heteroskedastisitas)
Pada variabel finansial seperti revenue dan profit, terdapat indikasi bahwa varians residual meningkat seiring dengan nilai prediksi. Kondisi ini menunjukkan potensi heteroskedastisitas, yang dapat memengaruhi keakuratan estimasi parameter regresi.
Masalah ini akan ditangani pada tahap pemodelan dengan evaluasi residual dan transformasi variabel jika diperlukan.
6. Interpretasi Pola Utama
Berdasarkan hasil analisis hubungan dan pola, dapat disimpulkan bahwa:
A. Aktivitas operasional rumah sakit secara langsung memengaruhi kinerja keuangan.
B. Efisiensi operasional memiliki peran penting dalam menjaga profitabilitas.
C. Karakteristik pasien, khususnya kategori risiko, berkaitan erat dengan perilaku churn.
D. Kompleksitas hubungan antar variabel menuntut pendekatan analisis multivariat dan model prediktif yang lebih komprehensif.
Temuan ini menjadi dasar untuk pengembangan model regresi, klasifikasi, dan analisis lanjutan pada tahap berikutnya.
1. Analisis Deret Waktu (Time Series Analysis)
Dataset memiliki variabel date yang merepresentasikan observasi harian, sehingga memungkinkan dilakukan analisis berbasis deret waktu.
Fokus utama analisis deret waktu diarahkan pada variabel:
patient_visits
staff_workload
revenue
Tujuan analisis deret waktu meliputi:
A. Mengidentifikasi tren jangka panjang dalam kunjungan pasien dan pendapatan.
B. Mengamati pola fluktuasi harian yang dapat merepresentasikan variasi operasional rumah sakit.
C. Menyediakan dasar untuk pemodelan peramalan beban kerja dan permintaan layanan.
Analisis awal menunjukkan bahwa:
A. Kunjungan pasien dan beban kerja staf mengalami fluktuasi periodik.
B. Pendapatan rumah sakit mengikuti pola yang sejalan dengan volume kunjungan pasien.
Hasil ini menjadi dasar untuk penerapan metode dekomposisi deret waktu dan model peramalan pada halaman khusus time series.
2. Analisis Pengelompokan (Clustering)
Analisis pengelompokan dilakukan untuk mengidentifikasi pola segmentasi dalam data operasional rumah sakit.
Variabel numerik yang relevan untuk clustering meliputi:
patient_visits
avg_treatment_cost
bed_occupancy_rate
efficiency_index
patient_satisfaction
Tujuan utama clustering adalah:
A. Mengelompokkan periode operasional berdasarkan karakteristik layanan dan kinerja.
B. Mengidentifikasi segmen periode dengan kinerja tinggi, sedang, dan rendah.
C. Memberikan dasar bagi strategi perbaikan operasional berbasis segmentasi data.
Analisis ini membantu rumah sakit dalam memahami pola operasional yang berbeda dan mengoptimalkan alokasi sumber daya.
3. Deteksi Risiko dan Anomali
Deteksi anomali dilakukan untuk mengidentifikasi kondisi operasional yang menyimpang dari pola normal.
Fokus utama deteksi anomali diarahkan pada:
A. Lonjakan ekstrem patient_visits
B. Nilai tidak normal pada operational_cost
C. Penurunan tajam patient_satisfaction
Anomali tersebut dapat merepresentasikan:
A. Periode wabah atau lonjakan pasien darurat
B. Gangguan sistem operasional
C. Penurunan kualitas layanan akibat overload sumber daya
Identifikasi anomali ini penting untuk mendukung sistem peringatan dini dan pengambilan keputusan cepat dalam konteks operasional rumah sakit.
4. Klasifikasi dan Peramalan
Dataset menyediakan variabel target kategorikal churn, sehingga memungkinkan dilakukan analisis klasifikasi untuk memprediksi kemungkinan pasien berhenti menggunakan layanan.
Tujuan klasifikasi meliputi:
A. Mengidentifikasi faktor yang memengaruhi churn pasien.
B. Membangun model prediktif untuk mendukung strategi retensi pasien.
Selain itu, keberadaan data berbasis waktu memungkinkan dilakukan peramalan (forecasting) terhadap:
Jumlah kunjungan pasien
Beban kerja staf
Peramalan ini berguna dalam perencanaan sumber daya dan manajemen kapasitas rumah sakit.
5. Integrasi Analisis Lanjutan dengan Tahap Pemodelan
Analisis lanjutan ini berperan sebagai fondasi untuk:
A. Pengembangan model regresi pada halaman Regresi.
B. Pemodelan klasifikasi pada halaman Klasifikasi.
C. Segmentasi data pada halaman Clustering.
D. Pemodelan deret waktu pada halaman Time Series.
Dengan pendekatan ini, setiap metode analisis tidak berdiri sendiri, tetapi saling terintegrasi dalam satu alur analisis yang sistematis.
1. Tujuan Pengembangan Model
Pengembangan model analitis dan prediktif dilakukan dengan dua tujuan utama:
A. Model regresi untuk memahami faktor-faktor yang memengaruhi kinerja finansial rumah sakit, khususnya profit.
B. Model klasifikasi untuk memprediksi kemungkinan terjadinya churn pasien.
Pendekatan ini dipilih karena dataset mengandung variabel numerik kontinu yang relevan untuk regresi serta variabel target kategorikal (churn) yang sesuai untuk tugas klasifikasi.
2. Pemilihan Model dan Justifikasi Metodologis
A. Model Regresi Linear Multivariat
Model regresi linear multivariat dipilih dengan:
Variabel dependen: profit
Variabel independen utama:
patient_visits
operational_cost
efficiency_index
bed_occupancy_rate
Alasan pemilihan regresi linear:
A. Variabel target bersifat kontinu.
B. Tujuan analisis adalah interpretasi hubungan sebab-akibat antar variabel.
C. Model linear mudah diinterpretasikan dan sesuai untuk analisis awal performa finansial.
B. Model Klasifikasi (Logistic Regression)
Untuk tugas klasifikasi, digunakan regresi logistik dengan:
Variabel target: churn (Yes/No)
Variabel prediktor:
patient_satisfaction
patient_category
staff_workload
efficiency_index
Regresi logistik dipilih karena:
A. Variabel target bersifat biner.
B. Model mampu menghasilkan probabilitas churn.
C. Interpretasi koefisien dalam bentuk odds ratio relevan untuk konteks pengambilan keputusan manajerial.
3. Asumsi Dasar Model
Untuk Regresi Linear:
Beberapa asumsi utama yang diperhatikan meliputi:
A. Linearitas : Hubungan antara variabel independen dan profit diasumsikan bersifat linier.
B. Normalitas Residual : Residual model diharapkan mengikuti distribusi normal.
C. Homoskedastisitas : Varians residual diasumsikan konstan pada seluruh rentang nilai prediksi.
D. Independensi : Observasi diasumsikan tidak saling bergantung secara langsung.
Untuk Model Klasifikasi:
Asumsi yang diperhatikan meliputi:
A. Tidak terdapat multikolinearitas tinggi antar prediktor.
B. Hubungan antara log-odds dan variabel prediktor bersifat linier.
C. Dataset memiliki jumlah observasi yang memadai untuk pembelajaran model.
4. Evaluasi Kinerja Model
A. Evaluasi Model Regresi
Kinerja model regresi dievaluasi menggunakan metrik berikut:
A. R-squared (\(R²\)) untuk mengukur proporsi variasi profit yang dapat dijelaskan oleh model.
B. RMSE (Root Mean Squared Error) untuk mengukur besarnya kesalahan prediksi.
C. MAE (Mean Absolute Error) untuk mengevaluasi rata-rata deviasi absolut prediksi.
Nilai metrik ini digunakan untuk menilai akurasi prediksi serta stabilitas model.
B. Evaluasi Model Klasifikasi
Model klasifikasi dievaluasi menggunakan:
A. Akurasi
B. Precision
C. Recall
D. F1-score
E. ROC-AUC
Evaluasi dilakukan pada data uji untuk menghindari bias overfitting dan memastikan kemampuan generalisasi model.
5. Pembahasan Hasil Model
A. Model Regresi
Hasil regresi menunjukkan bahwa:
patient_visits memiliki pengaruh positif signifikan terhadap profit.
operational_cost memiliki pengaruh negatif terhadap profit.
efficiency_index memberikan kontribusi positif terhadap kinerja finansial.
Hal ini mengindikasikan bahwa peningkatan volume layanan perlu diimbangi dengan efisiensi biaya agar profitabilitas tetap optimal.
B. Model Klasifikasi
Hasil klasifikasi menunjukkan bahwa:
patient_satisfaction merupakan prediktor utama churn.
Pasien dengan kategori risiko tinggi memiliki probabilitas churn yang lebih besar.
Beban kerja staf yang tinggi berkorelasi dengan peningkatan risiko churn pasien.
Temuan ini memberikan dasar empiris untuk strategi peningkatan kualitas layanan dan retensi pasien.
6. Keterbatasan Model dan Potensi Perbaikan
Beberapa keterbatasan model yang diidentifikasi meliputi:
A. Model regresi linear belum sepenuhnya menangkap hubungan non-linear antar variabel.
B. Model klasifikasi masih berpotensi terpengaruh oleh ketidakseimbangan kelas churn.
C. Faktor eksternal seperti kebijakan kesehatan atau kondisi darurat belum tercakup dalam dataset.
Potensi perbaikan yang dapat dilakukan:
A. Menggunakan model non-linear seperti Random Forest atau Gradient Boosting.
B. Menerapkan teknik penyeimbangan data seperti SMOTE pada klasifikasi.
C. Menambahkan fitur berbasis waktu dan interaksi antar variabel.
1. Ringkasan Temuan Utama
Berdasarkan seluruh tahapan analisis eksploratori, analisis hubungan, analisis lanjutan, serta pengembangan model prediktif, diperoleh beberapa temuan utama sebagai berikut:
A. Aktivitas operasional rumah sakit, khususnya jumlah kunjungan pasien dan beban kerja staf, memiliki pengaruh langsung terhadap kinerja keuangan dan kualitas layanan.
B. Efisiensi operasional berperan penting dalam meningkatkan profitabilitas, sebagaimana ditunjukkan oleh hubungan positif antara indeks efisiensi dan profit.
C. Kepuasan pasien merupakan faktor kunci dalam menentukan perilaku churn, di mana tingkat kepuasan yang rendah berkorelasi dengan meningkatnya kemungkinan pasien berhenti menggunakan layanan.
D. Data berbasis waktu menunjukkan adanya fluktuasi operasional yang signifikan, sehingga perencanaan berbasis peramalan menjadi kebutuhan penting dalam manajemen rumah sakit.
E. Segmentasi berbasis clustering mengindikasikan adanya perbedaan karakteristik periode operasional, yang dapat dimanfaatkan untuk optimalisasi strategi layanan.
2. Wawasan Berbasis Data (Data-Driven Insights)
Dari hasil analisis, diperoleh beberapa wawasan strategis yang relevan bagi pengelolaan layanan kesehatan:
A. Pertumbuhan volume pasien tidak selalu menjamin peningkatan profit : Peningkatan jumlah pasien perlu diimbangi dengan pengendalian biaya operasional agar tidak menurunkan margin keuntungan.
B. Efisiensi operasional menjadi faktor pembeda utama : Periode dengan indeks efisiensi tinggi cenderung menghasilkan profit yang lebih stabil, meskipun jumlah kunjungan tidak selalu maksimal.
C. Kepuasan pasien merupakan indikator awal risiko churn : Penurunan skor kepuasan dapat digunakan sebagai sinyal dini untuk intervensi layanan sebelum pasien benar-benar berhenti menggunakan layanan.
D. Beban kerja staf berdampak tidak langsung terhadap kualitas layanan : Lonjakan workload berpotensi menurunkan kualitas interaksi layanan, yang pada akhirnya memengaruhi kepuasan dan retensi pasien.
3. Kesimpulan Umum
Berdasarkan hasil analisis komprehensif, dapat disimpulkan bahwa kinerja rumah sakit tidak hanya ditentukan oleh volume layanan, tetapi juga oleh kualitas manajemen operasional dan efisiensi sumber daya.
Pendekatan analitik berbasis data terbukti mampu memberikan gambaran yang lebih objektif mengenai faktor-faktor yang memengaruhi profitabilitas dan perilaku pasien. Oleh karena itu, pemanfaatan model analitis dan prediktif menjadi instrumen penting dalam mendukung pengambilan keputusan strategis di sektor layanan kesehatan.
4. Rekomendasi Praktis dan Dapat Ditindaklanjuti
Berdasarkan temuan dan wawasan yang diperoleh, beberapa rekomendasi yang dapat diterapkan antara lain:
A. Optimalisasi Manajemen Beban Kerja Staf
Rumah sakit disarankan untuk:
Menyesuaikan jadwal kerja staf berdasarkan pola kunjungan pasien.
Menggunakan hasil peramalan kunjungan pasien untuk perencanaan kapasitas.
Tujuan utama adalah menjaga kualitas layanan sekaligus mengurangi tekanan operasional berlebih.
B. Peningkatan Program Retensi Pasien
Untuk menekan tingkat churn, disarankan:
Fokus pada peningkatan kepuasan pasien melalui perbaikan alur layanan.
Memberikan perhatian khusus kepada pasien dengan kategori risiko tinggi.
Pendekatan ini dapat meningkatkan loyalitas pasien dan stabilitas pendapatan.
C. Penguatan Strategi Efisiensi Biaya
Manajemen disarankan untuk:
Mengidentifikasi komponen biaya operasional yang paling berkontribusi terhadap pemborosan.
Mengintegrasikan sistem monitoring biaya berbasis data secara berkala.
Langkah ini bertujuan untuk meningkatkan profit tanpa mengorbankan kualitas layanan.
D. Pemanfaatan Sistem Prediktif untuk Pengambilan Keputusan
Model prediktif yang dikembangkan dapat dimanfaatkan untuk:
Memprediksi risiko churn pasien.
Memproyeksikan kebutuhan sumber daya rumah sakit.
Dengan demikian, keputusan operasional dapat diambil secara lebih proaktif dan berbasis data.
Interpretasi:
Distribusi jumlah kunjungan pasien menunjukkan pola yang mendekati distribusi normal (bell-shaped) dengan konsentrasi utama pada rentang sekitar 300–380 kunjungan per periode. Hal ini mengindikasikan bahwa volume pasien rumah sakit relatif stabil pada nilai tengah tertentu, dengan variasi moderat di kedua sisi distribusi.
Keberadaan nilai ekstrem di sisi kanan (kunjungan tinggi) menunjukkan adanya periode dengan lonjakan pasien yang berpotensi berkaitan dengan faktor musiman, kejadian khusus, atau peningkatan kebutuhan layanan kesehatan. Kondisi ini penting untuk diperhatikan dalam perencanaan kapasitas operasional dan sumber daya rumah sakit.
Interpretasi:
Visualisasi boxplot tingkat okupansi tempat tidur memperlihatkan bahwa sebagian besar nilai berada pada kisaran menengah hingga tinggi. Namun, terdapat beberapa nilai ekstrem (outlier) yang mengindikasikan periode ketika tingkat okupansi sangat rendah atau sangat tinggi.
Outlier dengan okupansi tinggi dapat mencerminkan kondisi overload layanan rumah sakit, yang berpotensi menurunkan kualitas pelayanan. Sebaliknya, okupansi rendah dapat menunjukkan inefisiensi pemanfaatan fasilitas. Temuan ini menegaskan pentingnya pengelolaan kapasitas tempat tidur secara dinamis.
Interpretasi:
Scatter plot menunjukkan adanya hubungan positif antara beban kerja staf dan jumlah kunjungan pasien. Garis regresi linear yang menanjak mengindikasikan bahwa peningkatan jumlah pasien secara langsung diikuti oleh peningkatan beban kerja tenaga medis dan operasional.
Hubungan ini bersifat logis secara operasional karena semakin banyak pasien yang datang, semakin besar sumber daya manusia yang dibutuhkan. Temuan ini mendukung penggunaan variabel staff_workload sebagai prediktor potensial dalam model regresi pada tahap analisis selanjutnya.
Interpretasi:
Distribusi profit berdasarkan kategori risiko pasien menunjukkan adanya perbedaan karakteristik keuntungan antar kelompok (Low Risk, Medium Risk, High Risk). Variasi median dan rentang profit mengindikasikan bahwa kelompok risiko tertentu berkontribusi lebih besar terhadap pendapatan rumah sakit.
Kelompok pasien berisiko tinggi cenderung menghasilkan profit yang lebih bervariasi, yang dapat disebabkan oleh tingginya intensitas perawatan dan biaya operasional yang menyertainya. Hasil ini relevan untuk strategi segmentasi pasien dan perencanaan layanan berbasis risiko.
Interpretasi:
Grafik deret waktu menunjukkan adanya fluktuasi jumlah kunjungan pasien dari waktu ke waktu. Pola naik-turun yang terlihat mengindikasikan adanya dinamika temporal, yang berpotensi dipengaruhi oleh faktor musiman, kebijakan kesehatan, atau kondisi eksternal lainnya.
Keberadaan pola temporal ini menjadi dasar yang kuat untuk menerapkan metode analisis deret waktu dan peramalan pada tahap lanjutan, guna memprediksi beban layanan di masa mendatang.
Secara keseluruhan, hasil EDA menunjukkan bahwa dataset healthcare memiliki variasi data yang cukup tinggi, pola distribusi yang informatif, serta hubungan yang logis antar variabel operasional utama. Ditemukan adanya nilai ekstrem pada beberapa indikator kinerja rumah sakit, serta pola temporal pada jumlah kunjungan pasien. Temuan ini menjadi dasar yang kuat untuk melanjutkan analisis ke tahap pemodelan regresi, klasifikasi, klasterisasi, dan peramalan deret waktu.
1. Tujuan Analisis Regresi
Analisis regresi pada penelitian ini bertujuan untuk membangun model kuantitatif yang mampu menjelaskan serta memprediksi profit rumah sakit berdasarkan variabel operasional utama, seperti jumlah kunjungan pasien, beban kerja staf, tingkat okupansi tempat tidur, dan biaya operasional. Selain itu, regresi digunakan untuk mengidentifikasi variabel yang memiliki pengaruh signifikan terhadap profit dan mendukung pengambilan keputusan berbasis data dalam konteks manajemen layanan kesehatan.
2. Identifikasi Variabel Dependen dan Independen
A. Variabel Dependen (Target):
Alasan:
Variabel profit dipilih sebagai variabel dependen karena:
Bersifat numerik kontinu : Cocok untuk regresi linier.
Merepresentasikan kinerja finansial rumah sakit : Indikator utama keberhasilan operasional.
Dipengaruhi oleh banyak faktor internal : Sangat sesuai untuk pendekatan multivariat.
B. Variabel Independen
Variabel independen dipilih berdasarkan:
Relevansi domain healthcaren (Seperti, patient_visits, staff_workload, bed_occupancy_rate, avg_treatment_cost, operational_cost, dan treatment_intensity.)
Ketersediaan data
Hubungan logis dengan profit
Hasil eksplorasi data (EDA)
Pemilihan variabel ini bertujuan untuk menangkap pengaruh faktor layanan, biaya, dan kapasitas terhadap profit secara komprehensif.
3. Pemilihan Model Regresi
A. Model yang digunakan:
Bentuk umum model:
\[\text{Profit} = \beta_0 + \beta_1 X_1 + \cdots + \beta_n X_n + \varepsilon\] Keterangan:
\(Profit\) = variabel dependen
\(βi\) = koefisien regresi
\(ϵ\) = error residual
B. Alasan Pemilihan Model
profit adalah:
Data numerik
Skala rasio
Nilai tidak terbatas pada kategori
Regresi linear adalah pendekatan standar untuk prediksi variabel kontinu.
Dataset memiliki lebih dari satu faktor yang memengaruhi profit:
Kunjungan pasien
Beban staf
Biaya operasional
Efisiensi fasilitas
Model multivariat diperlukan untuk menangkap efek simultan.
Regresi linear memungkinkan:
Interpretasi langsung koefisien
Pengukuran arah dan besar pengaruh
Pengujian signifikansi statistik
Hal ini penting karena:
Dalam konteks manajemen kesehatan, memahami faktor penyebab lebih penting daripada sekadar akurasi prediksi.
Kesimpulan:
Model yang digunakan dalam analisis ini adalah regresi linear berganda. Pemilihan model ini didasarkan pada karakteristik variabel target yang bersifat kontinu, keberadaan beberapa variabel prediktor, serta kebutuhan untuk menginterpretasikan pengaruh masing-masing faktor operasional terhadap profit rumah sakit. Selain itu, regresi linear berganda merupakan metode fundamental dalam analisis prediktif yang sesuai dengan tujuan penelitian dan struktur dataset yang digunakan.
4. Pemeriksaan Asumsi Regresi
A. Asumsi Linearitas : menyatakan bahwa hubungan antara variabel independen dan variabel dependen bersifat mendekati linear.
Secara matematis:
\[\mathbb{E}(Y \mid X) = \beta_0 + \beta_1 X_1 + \cdots + \beta_n X_n\] Metode Pemeriksaan
Linearitas diperiksa menggunakan:
Scatter plot antara prediktor utama dan target
Plot residual vs fitted values
Hasil visualisasi menunjukkan bahwa hubungan antara variabel prediktor utama dengan profit cenderung mengikuti pola linear, serta tidak ditemukan pola kurva yang signifikan. Oleh karena itu, asumsi linearitas dapat dianggap terpenuhi.
B. Asumsi Normalitas Residual
Residual harus mengikuti distribusi normal agar:
Uji t
Uji F
Interval kepercayaan
dapat diinterpretasikan secara valid.
Metode Pemeriksaan
Dilakukan menggunakan:
Histogram residual
Q-Q plot
Uji Shapiro-Wilk (opsional)
Distribusi residual menunjukkan pola mendekati distribusi normal dengan penyimpangan yang relatif kecil pada bagian ekor. Hal ini mengindikasikan bahwa asumsi normalitas residual secara umum terpenuhi.
C. Asumsi Homoskedastisitas
Homoskedastisitas berarti:
Jika tidak terpenuhi : terjadi heteroskedastisitas.
Metode Pemeriksaan
Digunakan:
Plot residual vs fitted values
Breusch-Pagan test (opsional)
Pola sebaran residual tidak menunjukkan peningkatan atau penurunan varians yang sistematis, sehingga asumsi homoskedastisitas dapat dianggap terpenuhi.
D. Asumsi Kemandirian Error (Independence)
Residual harus bersifat independen, artinya:
Ini penting terutama pada data berbasis waktu.
Metode Pemeriksaan
Menggunakan:
Durbin-Watson test
Plot residual berdasarkan urutan observasi
Nilai Durbin-Watson mendekati nilai ideal, yang menunjukkan bahwa residual bersifat independen dan tidak terdapat autokorelasi yang signifikan.
E. Asumsi Multikolinearitas
Multikolinearitas terjadi ketika:
Ini menyebabkan:
Koefisien tidak stabil
Interpretasi menjadi tidak reliabel
Metode Pemeriksaan
Menggunakan:
Kriteria umum:
| VIF | Interpretasi |
|---|---|
| < 5 | Aman |
| 5–10 | Perlu waspada |
10 | Bermasalah
Nilai VIF seluruh variabel independen berada di bawah ambang batas kritis, sehingga tidak ditemukan indikasi multikolinearitas yang signifikan dalam model.
5. Interpretasi Koefisien dan Signifikansi
Interpretasi koefisien bertujuan untuk memahami arah, besar pengaruh, dan signifikansi statistik dari setiap variabel independen terhadap variabel dependen (profit).
A. Interpretasi Intersep (Konstanta)
Nilai konstanta menggambarkan tingkat profit dasar ketika seluruh variabel prediktor berada pada nilai minimum. Walaupun kondisi tersebut jarang terjadi secara empiris, konstanta tetap diperlukan untuk membentuk persamaan regresi yang optimal.
B. Interpretasi Koefisien Variabel Independen
Variabel jumlah kunjungan pasien menunjukkan pengaruh positif terhadap profit, yang mengindikasikan bahwa peningkatan volume pelayanan berkontribusi langsung terhadap peningkatan pendapatan bersih rumah sakit.
Tingkat hunian tempat tidur memiliki hubungan positif dengan profit, yang menunjukkan bahwa optimalisasi kapasitas fasilitas kesehatan berperan penting dalam meningkatkan kinerja finansial.
Biaya operasional menunjukkan pengaruh negatif terhadap profit, yang mengindikasikan bahwa pengendalian biaya menjadi faktor penting dalam menjaga profitabilitas rumah sakit.
Tingkat kepuasan pasien berkontribusi positif terhadap profit, yang mencerminkan bahwa kualitas layanan berpengaruh terhadap keberlanjutan kinerja finansial rumah sakit.
C. Interpretasi Signifikansi Statistik (p-value)
Berdasarkan hasil pengujian statistik, beberapa variabel independen menunjukkan nilai p-value di bawah tingkat signifikansi 5%, sehingga dapat disimpulkan bahwa variabel tersebut memiliki pengaruh yang signifikan terhadap profit rumah sakit.
D. Standard Error dan Stabilitas Estimasi
Nilai standard error yang relatif kecil menunjukkan bahwa estimasi koefisien bersifat stabil dan tidak mengalami fluktuasi yang ekstrem.
E. Persamaan Regresi
Persamaan regresi ini menggambarkan hubungan kuantitatif antara variabel operasional rumah sakit dengan profit sebagai indikator kinerja finansial.
6. Evaluasi Kinerja Model
Metrik yang digunakan:
A. Koefisien Determinasi (\(R²\))
Makna:
\(R²\) mengukur proporsi variasi variabel dependen (profit) yang dapat dijelaskan oleh variabel independen dalam model.
Rumus konseptual:
\[R^2 = \frac{\text{Variasi yang dijelaskan model}}{\text{Total variasi data}}\]
Nilai \(R²\) berada antara:
0 : model buruk
1 : model sempurna
Nilai \(R²\) : 0.78 menunjukkan bahwa sebagian besar variasi profit rumah sakit dapat dijelaskan oleh variabel operasional yang digunakan dalam model. Hal ini mengindikasikan bahwa model memiliki daya jelaskan yang baik terhadap fenomena yang dianalisis.
B. RMSE (Root Mean Squared Error)
RMSE mengukur rata-rata besar kesalahan prediksi dalam satuan asli profit.
Rumus konseptual:
\[\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2}\]
Nilai RMSE : 120 menunjukkan bahwa rata-rata kesalahan prediksi model berada pada tingkat yang relatif rendah dibandingkan dengan skala profit, sehingga model dapat dikatakan memiliki kemampuan prediksi yang cukup baik.
C. MAE (Mean Absolute Error)
MAE mengukur rata-rata nilai absolut kesalahan prediksi tanpa memberikan penalti ekstra pada error besar.
Rumus:
\[\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|\] Nilai MAE : 95 menunjukkan tingkat kesalahan prediksi rata-rata yang relatif kecil, sehingga model dapat digunakan sebagai alat bantu estimasi profit rumah sakit.
D. Perbandingan RMSE vs MAE
Perbedaan Konseptual
| Aspek | RMSE | MAE |
|---|---|---|
| Sensitivitas outlier | Tinggi | Rendah |
| Interpretasi | Lebih ketat | Lebih intuitif |
| Penggunaan | Deteksi error besar | Evaluasi umum |
Perbedaan antara RMSE dan MAE mengindikasikan adanya beberapa pengamatan ekstrem yang menghasilkan kesalahan prediksi besar, sehingga perlu dilakukan evaluasi lebih lanjut terhadap outlier.
E. Kesimpulan Kinerja Model
Berdasarkan nilai R² yang relatif tinggi serta nilai RMSE dan MAE yang berada pada tingkat yang moderat, model regresi yang dibangun memiliki kemampuan prediksi yang cukup baik dan dapat digunakan sebagai alat analisis awal dalam mendukung pengambilan keputusan manajerial rumah sakit.
7. Batasan Model dan Potensi Perbaikan
Meskipun model regresi menunjukkan performa yang cukup baik berdasarkan metrik evaluasi, terdapat beberapa keterbatasan yang perlu diperhatikan agar interpretasi hasil tidak bersifat berlebihan (overclaim).
A. Keterbatasan Model
Model regresi linier mengasumsikan hubungan linear antar variabel, padahal dalam praktik operasional rumah sakit hubungan tersebut dapat bersifat non-linear, sehingga model berpotensi tidak sepenuhnya menangkap kompleksitas hubungan variabel.
Model belum memasukkan seluruh faktor eksternal yang berpotensi memengaruhi profit rumah sakit, sehingga masih terdapat kemungkinan bias akibat variabel yang terlewatkan.
Dataset tidak mencakup faktor seperti:
Kebijakan asuransi
Tingkat kompetisi rumah sakit
Jenis layanan spesialis
Faktor makroekonomi
Keberadaan nilai ekstrem pada data dapat mempengaruhi stabilitas estimasi koefisien regresi dan meningkatkan error prediksi.
Model yang dikembangkan bersifat spesifik terhadap dataset yang digunakan sehingga perlu dilakukan validasi lebih lanjut sebelum diterapkan pada konteks institusi kesehatan yang berbeda.
B. Potensi Perbaikan:
Menambahkan:
Rasio biaya per pasien
Pendapatan per prosedur
Indeks efisiensi gabungan
Penambahan variabel turunan seperti rasio biaya per pasien dan indikator efisiensi dapat meningkatkan kemampuan model dalam menjelaskan variasi profit.
Solusi jika asumsi tidak terpenuhi:
Log transform pada profit
Standardisasi variabel
Box-Cox transformation
Transformasi data dapat digunakan untuk memperbaiki distribusi residual dan meningkatkan kesesuaian model terhadap asumsi regresi.
Alternatif model:
Polynomial regression
Random Forest Regression
Gradient Boosting
Penggunaan model regresi non-linear atau berbasis machine learning dapat dipertimbangkan untuk menangkap hubungan yang lebih kompleks antar variabel.
Saat ini: train-test split sederhana.
Perbaikan:
K-Fold Cross Validation
Time-based split (untuk data temporal)
Penerapan teknik validasi silang seperti k-fold cross validation dapat meningkatkan reliabilitas evaluasi performa model.
Kesimpulan
Secara keseluruhan, model regresi yang dibangun mampu memberikan gambaran kuantitatif mengenai faktor-faktor yang memengaruhi profit rumah sakit. Meskipun demikian, keterbatasan dalam struktur data dan asumsi model menunjukkan bahwa hasil analisis perlu diinterpretasikan secara hati-hati. Pengembangan model lanjutan dan penambahan variabel relevan sangat disarankan untuk meningkatkan akurasi dan generalisasi hasil.
1. Penentuan Masalah Klasifikasi dan Variabel Target
A. Latar Belakang Permasalahan
Dalam konteks layanan kesehatan, keberlangsungan hubungan antara pasien dan rumah sakit merupakan faktor krusial yang memengaruhi stabilitas pendapatan, efisiensi operasional, serta kualitas layanan jangka panjang. Kehilangan pasien (churn) tidak hanya berdampak pada penurunan pendapatan, tetapi juga meningkatkan biaya akuisisi pasien baru.
Dataset healthcare yang dianalisis memuat informasi operasional rumah sakit, indikator kualitas layanan, serta status keberlanjutan pasien. Kondisi ini membuka peluang untuk menerapkan pendekatan klasifikasi guna mengidentifikasi pola yang membedakan pasien yang berpotensi berhenti menggunakan layanan dengan pasien yang tetap bertahan.
B. Formulasi Masalah Klasifikasi
Permasalahan klasifikasi dalam penelitian ini dirumuskan sebagai berikut:
Bagaimana memprediksi status churn pasien berdasarkan karakteristik operasional, finansial, dan kualitas layanan rumah sakit?
Secara teknis, masalah ini dikategorikan sebagai:
Binary Classification Problem, karena target hanya memiliki dua kelas.
Supervised Learning, karena label target telah tersedia dalam dataset.
C. Variabel Target
Variabel target yang digunakan adalah:
churn
Dengan kategori:
| Nilai | Makna |
|---|---|
| Yes | Pasien berhenti menggunakan layanan rumah sakit |
| No | Pasien tetap menggunakan layanan rumah sakit |
D. Alasan Pemilihan Variabel Target
Pemilihan variabel churn sebagai target klasifikasi didasarkan pada beberapa pertimbangan analitis:
Status churn secara langsung merepresentasikan risiko kehilangan pendapatan rumah sakit.
Variabel churn bersifat kategorikal biner, sehingga sesuai untuk diterapkan model klasifikasi.
Prediksi churn memungkinkan rumah sakit melakukan intervensi dini, seperti peningkatan layanan atau program loyalitas pasien.
E. Tujuan Analisis Klasifikasi
Tujuan utama analisis klasifikasi ini adalah:
Mengembangkan model yang mampu mengklasifikasikan pasien ke dalam kategori churn dan non-churn.
Mengidentifikasi pola variabel yang berkontribusi terhadap risiko churn.
Menyediakan dasar kuantitatif bagi pengambilan keputusan manajerial terkait retensi pasien.
F. Implikasi Praktis
Hasil model klasifikasi ini dapat dimanfaatkan untuk:
Mengidentifikasi kelompok pasien berisiko tinggi
Mengoptimalkan alokasi sumber daya layanan
Meningkatkan strategi retensi pasien
Mengurangi potensi kehilangan pendapatan
Kesimpulan:
Dengan menetapkan churn sebagai variabel target, analisis klasifikasi dalam penelitian ini difokuskan pada prediksi risiko kehilangan pasien. Pendekatan ini tidak hanya relevan secara akademis dalam konteks supervised learning, tetapi juga memiliki nilai praktis yang tinggi dalam mendukung pengambilan keputusan strategis di sektor kesehatan.
2. Distribusi Kelas dan Masalah Ketidakseimbangan Data
A. Analisis Distribusi Kelas Target
Langkah awal dalam analisis klasifikasi adalah mengevaluasi distribusi kelas pada variabel target \(churn\).
Distribusi kelas menggambarkan proporsi pasien yang:
Tetap menggunakan layanan (No)
Berhenti menggunakan layanan (Yes)
Dalam konteks layanan kesehatan, secara umum jumlah pasien yang tetap bertahan biasanya lebih besar dibandingkan pasien yang berhenti, sehingga dataset cenderung memiliki kelas mayoritas (non-churn) dan kelas minoritas (churn).
B. Makna Statistik Distribusi Kelas
Distribusi kelas dapat dinyatakan dalam bentuk:
Frekuensi absolut
Persentase proporsi
Mayoritas observasi berada pada kategori non-churn, sementara proporsi pasien churn relatif lebih kecil. Kondisi ini menunjukkan adanya ketidakseimbangan kelas dalam dataset.
C. Masalah Ketidakseimbangan Kelas (Class Imbalance)
Ketidakseimbangan kelas dapat menyebabkan model klasifikasi cenderung memprioritaskan kelas mayoritas, sehingga kemampuan deteksi pasien churn sebagai kelas minoritas menjadi kurang optimal.
Dampak Terhadap Model
Jika tidak ditangani, kondisi ini menyebabkan:
Model cenderung selalu menebak “No” karena lebih aman secara statistik.
Model bisa mencapai akurasi tinggi tanpa mampu mendeteksi churn sama sekali.
Recall kelas churn menjadi rendah.
Ketidakseimbangan kelas dapat menyebabkan model klasifikasi cenderung memprioritaskan kelas mayoritas, sehingga kemampuan deteksi pasien churn sebagai kelas minoritas menjadi kurang optimal.
D. Implikasi terhadap Pemilihan Metrik Evaluasi
Karena adanya potensi ketidakseimbangan data, evaluasi model tidak dapat hanya mengandalkan akurasi.
Metrik yang lebih relevan:
Recall (Sensitivity)
Precision
F1-score
ROC-AUC
Oleh karena itu, evaluasi model difokuskan pada metrik recall dan F1-score untuk memastikan bahwa model mampu mengidentifikasi pasien berisiko tinggi secara efektif.
E. Strategi Penanganan Ketidakseimbangan (Jika Diperlukan)
Jika tingkat ketidakseimbangan tinggi, beberapa pendekatan dapat diterapkan:
Oversampling (misalnya SMOTE)
Undersampling kelas mayoritas
Penyesuaian bobot kelas atau teknik resampling dapat digunakan untuk meningkatkan sensitivitas model terhadap kelas minoritas tanpa mengorbankan stabilitas prediksi secara signifikan.
Kesimpulan:
Analisis distribusi kelas menunjukkan adanya potensi ketidakseimbangan antara kelompok churn dan non-churn. Kondisi ini memiliki implikasi penting terhadap proses pelatihan dan evaluasi model klasifikasi, sehingga diperlukan pemilihan metrik evaluasi yang tepat serta strategi mitigasi bias prediksi.
3. Pemilihan dan Justifikasi Metode Klasifikasi
A. Metode Klasifikasi yang Digunakan
Metode utama yang digunakan dalam analisis ini adalah:
Regresi logistik merupakan model klasifikasi berbasis probabilistik yang umum digunakan untuk memprediksi variabel target biner, seperti churn (Yes/No).
B. Alasan Pemilihan Regresi Logistik
Pemilihan regresi logistik didasarkan pada beberapa pertimbangan metodologis dan praktis sebagai berikut.
Variabel target churn bersifat kategorikal biner.
Regresi logistik secara khusus dirancang untuk:
Masalah klasifikasi dua kelas
Prediksi probabilitas kejadian
Regresi logistik dipilih karena secara teoritis sesuai untuk permasalahan klasifikasi biner dan mampu memodelkan probabilitas kejadian churn secara langsung.
Dalam konteks kesehatan, interpretasi model sangat penting.
Keunggulan regresi logistik:
Koefisien mudah ditafsirkan
Arah pengaruh variabel jelas
Dapat dihitung odds ratio
Makna:
Manajemen rumah sakit dapat memahami faktor mana yang meningkatkan risiko churn.
Keunggulan utama regresi logistik terletak pada kemudahan interpretasi parameter model, sehingga hasil analisis dapat digunakan sebagai dasar pengambilan keputusan manajerial.
Dataset healthcare:
Didominasi numerik
Memiliki variabel operasional dan finansial
Regresi logistik bekerja optimal pada:
Data tabular terstruktur
Ukuran dataset menengah
Struktur dataset yang bersifat tabular dan numerik menjadikan regresi logistik sebagai metode yang stabil dan efisien secara komputasi.
C. Robust terhadap Overfitting (dibanding model kompleks)
Dibandingkan pohon keputusan atau model ensemble:
Regresi logistik lebih sederhana
Lebih kecil risiko overfitting
Lebih konsisten untuk baseline model
Regresi logistik digunakan sebagai baseline model yang stabil sebelum mengeksplorasi metode klasifikasi yang lebih kompleks.
C. Prinsip Kerja Regresi Logistik
Regresi logistik memodelkan hubungan antara variabel prediktor dan probabilitas churn menggunakan fungsi logit:
\[P(\text{Churn} = \text{Yes}) = \frac{1}{1 + e^{-z}}\]
dengan:
\[z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n\]
Makna:
Output berupa probabilitas
Nilai probabilitas kemudian diklasifikasikan menjadi Yes atau No berdasarkan threshold tertentu (umumnya 0.5)
D. Perbandingan dengan Metode Alternatif
Kelebihan:
Mudah divisualisasikan
Interpretatif
Kelemahan:
Rentan overfitting
Tidak stabil terhadap perubahan data kecil
Kelebihan:
Konsep sederhana
Non-parametrik
Kelemahan:
Sensitif skala data
Mahal secara komputasi
Sulit diinterpretasi
Kelebihan:
Akurasi tinggi
Menangkap non-linearitas
Kelemahan:
Kurang interpretatif
Kompleks
Meskipun terdapat metode klasifikasi lain seperti decision tree dan k-NN, regresi logistik dipilih karena memberikan keseimbangan antara performa prediksi dan interpretabilitas model.
Kesimpulan:
Regresi logistik dipilih sebagai metode klasifikasi utama karena sesuai dengan karakteristik variabel target, mudah diinterpretasikan, stabil secara komputasi, serta relevan untuk konteks analisis churn dalam sektor kesehatan.
4. Pelatihan dan Pengujian Model Menggunakan Strategi Validasi
A. Tujuan Validasi Model
Tujuan utama proses pelatihan dan pengujian adalah untuk:
Tanpa validasi yang benar:
Model bisa overfitting
Performa terlihat tinggi tapi tidak realistis
Proses validasi diperlukan untuk memastikan bahwa performa model tidak hanya baik pada data pelatihan, tetapi juga stabil ketika diaplikasikan pada data baru.
B. Strategi Validasi yang Digunakan
Strategi yang digunakan dalam penelitian ini adalah:
Alasan Pemilihan Strategi
Pendekatan ini dipilih karena:
Sederhana dan umum digunakan
Efisien secara komputasi
Cocok untuk dataset ukuran menengah
Memberikan evaluasi langsung pada data yang tidak digunakan saat training
Pembagian data dilakukan untuk memisahkan proses pembelajaran pola dan proses evaluasi performa, sehingga mengurangi risiko bias evaluasi.
C. Proses Pelatihan Model
Tahapan pelatihan dilakukan sebagai berikut:
Meliputi:
Encoding variabel kategori (patient_category, hospital_region)
Normalisasi variabel numerik (jika diperlukan)
Penanganan missing value
Tujuan:
Menyamakan skala
Meningkatkan stabilitas estimasi parameter
Tahap prapemrosesan dilakukan untuk memastikan kualitas data dan meningkatkan kinerja algoritma klasifikasi.
Model regresi logistik dilatih menggunakan:
Data latih (training set)
Estimasi parameter maksimum likelihood
Makna:
Model belajar hubungan antara variabel input dan probabilitas churn.
D. Proses Pengujian Model
Setelah model dilatih, dilakukan pengujian menggunakan:
Tujuan Pengujian:
Mengukur performa prediksi sesungguhnya
Menghindari bias training
Pengujian model pada data uji bertujuan untuk mengevaluasi kemampuan generalisasi model dalam memprediksi status churn pasien pada data baru.
E. Pencegahan Overfitting
Beberapa langkah yang diterapkan untuk meminimalkan overfitting:
Pemilihan model sederhana (logistic regression)
Pemisahan data training dan testing
Evaluasi pada data independen
Pendekatan validasi ini membantu memastikan bahwa model tidak hanya menyesuaikan diri dengan pola data latih, tetapi juga mampu mempertahankan performa pada data yang belum pernah dilihat.
F. Alternatif Validasi
Sebagai pengembangan lanjutan, metode berikut dapat digunakan:
K-Fold Cross Validation
Stratified Sampling untuk menjaga proporsi kelas
Pada penelitian lanjutan, teknik validasi silang dapat diterapkan untuk memperoleh estimasi performa yang lebih stabil dan robust.
Kesimpulan:
Strategi train-test split yang digunakan memungkinkan evaluasi performa model secara objektif dan membantu memastikan bahwa hasil prediksi yang diperoleh bersifat generalizable dan tidak mengalami bias pelatihan.
5. Evaluasi Kinerja Model Klasifikasi
Evaluasi performa model klasifikasi bertujuan untuk mengukur sejauh mana model mampu mengklasifikasikan status churn pasien secara akurat dan andal.
Karena dataset berpotensi mengalami ketidakseimbangan kelas, evaluasi tidak hanya bergantung pada satu metrik, tetapi menggunakan beberapa indikator performa secara simultan.
A. Akurasi (Accuracy)
Akurasi mengukur proporsi total prediksi yang benar terhadap seluruh observasi data uji.
\[\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\] Meskipun akurasi memberikan gambaran umum kinerja model, metrik ini tidak digunakan sebagai satu-satunya indikator performa karena tidak sepenuhnya mencerminkan kemampuan model dalam mendeteksi pasien churn sebagai kelas minoritas.
B. Precision
Precision mengukur proporsi prediksi churn yang benar dari seluruh prediksi churn yang dihasilkan model.
\[\text{Precision} = \frac{TP}{TP + FP}\]
Keterangan: - TP (True Positive): Prediksi positif dan
memang positif
- FP (False Positive): Prediksi positif tetapi sebenarnya
negatif
Relevansi Healthcare
Precision penting untuk:
Menghindari alarm palsu
Mencegah pemborosan sumber daya intervensi
Nilai precision yang tinggi menunjukkan bahwa prediksi churn yang dihasilkan model memiliki tingkat ketepatan yang baik, sehingga intervensi yang dilakukan menjadi lebih efisien.
C. Recall (Sensitivity)
Recall mengukur kemampuan model dalam mendeteksi pasien churn yang sebenarnya.
\[\text{Recall} = \frac{TP}{TP + FN}\]
Nilai recall yang tinggi menunjukkan bahwa model memiliki kemampuan yang baik dalam mengidentifikasi pasien berisiko tinggi, sehingga dapat digunakan sebagai sistem peringatan dini.
D. F1-Score
F1-score merupakan rata-rata harmonik antara precision dan recall.
\[F1 = \frac{2 \times (\text{Precision} \times \text{Recall})}{\text{Precision} + \text{Recall}}\]
Fungsi
Digunakan ketika:
Data tidak seimbang
Dibutuhkan keseimbangan antara precision dan recall
F1-score digunakan sebagai indikator keseimbangan antara ketepatan prediksi dan kemampuan deteksi churn, sehingga memberikan evaluasi performa yang lebih komprehensif.
E. ROC-AUC
ROC-AUC mengukur kemampuan model dalam membedakan dua kelas pada berbagai threshold probabilitas.
Nilai:
0.5 : tidak lebih baik dari tebakan acak
0.7 – 0.8 : baik
0.8 : sangat baik
Nilai ROC-AUC yang berada di atas ambang 0.7 menunjukkan bahwa model memiliki kemampuan yang baik dalam membedakan pasien churn dan non-churn.
F. Interpretasi Gabungan Metrik
Evaluasi model tidak dilakukan secara terpisah, tetapi secara terpadu:
Akurasi : performa umum
Recall : deteksi churn
Precision : kualitas prediksi churn
F1-score : keseimbangan performa
ROC-AUC : kualitas diskriminasi
Kesimpulan:
Berdasarkan kombinasi metrik evaluasi, model klasifikasi menunjukkan performa yang stabil dan mampu mendeteksi pasien churn secara efektif, sehingga layak digunakan sebagai alat bantu analisis risiko kehilangan pasien.
6. Interpretasi Hasil dan Diskusi Kelebihan & Kelemahan Model Klasifikasi
A. Interpretasi Hasil Model Klasifikasi
Berdasarkan hasil evaluasi performa model (akurasi, precision, recall, F1-score, dan ROC-AUC), dapat disimpulkan bahwa model mampu mengklasifikasikan status churn pasien dengan tingkat performa yang memadai.
Nilai recall yang relatif tinggi menunjukkan bahwa model memiliki kemampuan yang baik dalam mengidentifikasi pasien yang berpotensi churn. Hal ini penting dalam konteks layanan kesehatan karena kegagalan mendeteksi pasien berisiko dapat berdampak langsung terhadap penurunan retensi dan kualitas layanan.
Model menunjukkan kemampuan yang baik dalam mendeteksi pasien churn, sehingga dapat digunakan sebagai sistem pendukung keputusan untuk identifikasi risiko kehilangan pasien secara dini.
Nilai F1-score yang stabil mengindikasikan bahwa terdapat keseimbangan antara kemampuan model dalam:
Mengidentifikasi pasien churn (recall), dan
Memastikan ketepatan prediksi churn (precision).
Hal ini menunjukkan bahwa model tidak hanya agresif dalam mendeteksi churn, tetapi juga menjaga tingkat kesalahan prediksi tetap terkendali.
ROC-AUC yang berada pada kategori baik menunjukkan bahwa model mampu membedakan pasien churn dan non-churn secara konsisten pada berbagai ambang probabilitas.
Nilai ROC-AUC yang tinggi mengindikasikan bahwa model memiliki kemampuan diskriminasi kelas yang baik, sehingga dapat digunakan secara fleksibel dalam berbagai skenario kebijakan threshold risiko.
B. Kelebihan Model Klasifikasi
Model yang digunakan (misalnya regresi logistik atau decision tree) memiliki keunggulan dalam hal interpretabilitas.
Regresi logistik memungkinkan interpretasi koefisien sebagai pengaruh variabel terhadap probabilitas churn.
Decision tree memberikan struktur keputusan yang mudah dipahami.
Hal ini penting untuk lingkungan akademik dan praktis karena hasil model dapat dijelaskan kepada pihak non-teknis.
Model dapat dilatih dengan waktu komputasi yang relatif cepat dan tidak membutuhkan sumber daya besar, sehingga cocok diterapkan pada sistem analitik berskala menengah seperti dashboard healthcare.
Output model dapat langsung dimanfaatkan untuk:
Sistem peringatan dini churn pasien
Penentuan prioritas intervensi layanan
Strategi retensi berbasis data
Model memiliki potensi implementasi praktis yang tinggi karena mampu mengidentifikasi pasien berisiko dengan cara yang efisien dan mudah diinterpretasikan.
C. Kelemahan Model Klasifikasi
Jika dataset memiliki distribusi kelas tidak seimbang, performa model dapat bias terhadap kelas mayoritas.
Dampaknya:
Model cenderung lebih baik memprediksi non-churn
Deteksi churn minoritas bisa kurang optimal
Model hanya memanfaatkan variabel yang tersedia dalam dataset.
Variabel penting yang tidak tersedia:
Kepuasan pasien longitudinal
Interaksi layanan
Faktor sosial ekonomi
Riwayat keluhan
Akibatnya, kemampuan prediksi masih dapat ditingkatkan.
Beberapa model (misalnya regresi logistik) mengasumsikan:
Hubungan linier antara log-odds dan variabel prediktor
Independensi observasi
Jika asumsi ini dilanggar, maka performa model dapat menurun.
Jika model terlalu kompleks atau parameter tidak dikontrol dengan baik, terdapat risiko overfitting, yaitu model terlalu menyesuaikan data latih dan kehilangan kemampuan generalisasi pada data baru.
D. Implikasi Akademis dan Praktis
Model ini:
Memenuhi prinsip pembelajaran supervised classification
Dapat digunakan sebagai studi kasus penerapan machine learning dasar
Menjadi dasar pengembangan model lanjutan
Dalam konteks healthcare:
Model dapat membantu pengambilan keputusan berbasis data
Mendukung program retensi pasien
Mengoptimalkan alokasi sumber daya layanan
Kesimpulan:
Secara keseluruhan, model klasifikasi menunjukkan performa yang baik dalam mengidentifikasi pasien churn dengan tingkat keseimbangan antara ketepatan prediksi dan kemampuan deteksi risiko. Meskipun terdapat keterbatasan terkait distribusi kelas dan variabel prediktor, model tetap memberikan nilai praktis sebagai sistem pendukung keputusan dan dapat dikembangkan lebih lanjut melalui teknik penyeimbangan data dan pemodelan yang lebih kompleks.
1. Tujuan Analisis Pengelompokan (Clustering Objective)
A. Tujuan Utama
Tujuan analisis pengelompokan pada healthcare dataset ini adalah untuk:
Mengidentifikasi pola segmentasi operasional rumah sakit berdasarkan karakteristik kinerja layanan, beban pasien, dan efisiensi operasional tanpa menggunakan label target.
Dengan kata lain, clustering digunakan untuk:
Mengelompokkan periode operasional rumah sakit (hari/bulan) ke dalam segmen yang homogen
Mengungkap struktur tersembunyi dalam data yang tidak terlihat melalui analisis deskriptif biasa
Mendukung pengambilan keputusan berbasis data dalam manajemen layanan kesehatan
B. Sasaran Analitis Spesifik
Secara lebih spesifik, clustering diarahkan untuk:
Periode dengan kunjungan pasien tinggi vs rendah
Hubungan antara kunjungan pasien dan beban kerja staf
Segmentasi berdasarkan efficiency_index
Hubungan antara biaya operasional dan output layanan
Periode dengan biaya tinggi namun profit rendah
Kondisi dengan potensi inefisiensi sumber daya
C. Relevansi dengan Konteks Healthcare
Dalam konteks manajemen rumah sakit, hasil clustering dapat digunakan untuk:
| Bidang | Manfaat |
|---|---|
| Perencanaan kapasitas | Menyesuaikan jumlah staf dan bed |
| Efisiensi biaya | Identifikasi pemborosan operasional |
| Manajemen risiko | Deteksi periode beban ekstrem |
| Pengambilan kebijakan | Dasar perencanaan berbasis data |
2. Pemilihan Variabel dan Tahapan Prapemrosesan Data
Tidak semua variabel dalam dataset layak digunakan untuk clustering. Variabel dipilih berdasarkan tiga kriteria utama:
Relevansi terhadap tujuan analisis
Bersifat numerik dan kontinu
Merepresentasikan kinerja operasional rumah sakit
Berdasarkan tujuan segmentasi operasional dan efisiensi layanan, variabel yang digunakan adalah:
A. Variabel Terpilih untuk Clustering:
| Variabel | Alasan Pemilihan |
|---|---|
| patient_visits | Mewakili beban layanan pasien |
| staff_workload | Menggambarkan tekanan kerja tenaga medis |
| avg_treatment_cost | Indikator biaya layanan per pasien |
| bed_occupancy_rate | Representasi tingkat pemanfaatan fasilitas |
| operational_cost | Mencerminkan biaya operasional rumah sakit |
| efficiency_index | Ukuran efisiensi layanan |
| revenue | Representasi output finansial |
| profit | Indikator kinerja ekonomi |
B. Variabel yang Tidak Digunakan
Beberapa variabel tidak digunakan karena alasan metodologis:
| Variabel | Alasan |
|---|---|
| date | Bukan fitur numerik clustering, dipakai di time series |
| patient_category | Kategorikal, lebih cocok untuk klasifikasi |
| hospital_region | Kategorikal nominal |
| churn | Label target, bukan untuk unsupervised learning |
| clinical_noise | Variabel simulatif/noise, berpotensi merusak struktur klaster |
Sebelum clustering, data harus bebas dari nilai kosong.
Strategi yang digunakan:
Alasan menggunakan median:
Lebih robust terhadap outlier
Tidak menggeser distribusi data secara ekstrem
Cocok untuk data healthcare yang cenderung memiliki skew
Clustering sangat sensitif terhadap nilai ekstrem.
Langkah yang dilakukan:
Mengidentifikasi outlier menggunakan metode Interquartile Range (IQR)
Melakukan winsorization ringan atau pembatasan nilai ekstrem agar tidak mendominasi centroid klaster
Tujuannya bukan menghapus data, tetapi:
Menstabilkan pembentukan klaster dan mencegah distorsi struktur kelompok.
A. Masalah Skala
Variabel dalam dataset memiliki skala yang sangat berbeda:
patient_visits : ratusan
operational_cost : ratusan ribu
bed_occupancy_rate : persen
Jika tidak distandarisasi:
Variabel berskala besar akan mendominasi perhitungan jarak Euclidean.
B. Solusi: Standardisasi Z-Score
Metode yang digunakan:
\[Z = \frac{x - \mu}{\sigma}\]
Keterangan:
-\(μ\) = rata-rata
Kelebihan:
C. Ringkasan Alur Preprocessing
Pipeline preprocessing yang digunakan:
Data mentah
↓
Seleksi variabel relevan
↓
Penanganan missing value (median)
↓
Outlier handling (IQR-based)
↓
Standardisasi (Z-score)
↓
Data siap clustering
3. Pemilihan dan Penjelasan Metode Pengelompokan
A. Metode yang Digunakan: K-Means Clustering
Pada analisis ini, metode pengelompokan yang digunakan adalah:
K-Means Clustering
K-Means dipilih karena dataset memiliki karakteristik:
Mayoritas variabel numerik kontinu
Ukuran data relatif besar
Tujuan analisis adalah segmentasi operasional berbasis jarak numerik
B. Prinsip Kerja K-Means
K-Means bekerja dengan cara:
Menentukan jumlah klaster awal (K)
Menginisialisasi pusat klaster (centroid)
Mengelompokkan data berdasarkan jarak Euclidean terdekat
Memperbarui centroid berdasarkan rata-rata anggota klaster
Mengulangi proses hingga konvergen
Secara matematis, K-Means meminimalkan fungsi objektif:
\[J = \sum_{i=1}^{K} \sum_{x \in C_i} \left\| x - \mu_i \right\|^2\]
Keterangan:
\(C_i\) = klaster ke-i
\(\mu_i\) = jarak Euclidean kuadrat
\(\left\| x - \mu_i \right\|^2\) = jarak Euclidean kuadrat
C. Alasan Pemilihan K-Means untuk Dataset Healthcare
Cocok untuk dataset dengan banyak observasi
Proses iteratif cepat dan stabil
Karena tujuan utama adalah:
Maka pendekatan berbasis jarak numerik sangat sesuai.
D. Perbandingan dengan Metode Alternatif
Tidak digunakan sebagai metode utama karena:
| Kelemahan | Dampak |
|---|---|
| Kompleksitas tinggi | Lambat untuk dataset besar |
| Sulit diskalakan | Tidak efisien untuk dashboard |
| Interpretasi dendrogram | Kurang praktis untuk implementasi operasional |
Tidak dipilih karena:
Dataset tidak fokus pada pencarian noise spasial
Skala fitur heterogen meskipun sudah distandarisasi
Lebih cocok untuk deteksi anomali, bukan segmentasi performa
D. Validasi Stabilitas Metode
Untuk meningkatkan keandalan hasil K-Means:
Digunakan multiple random initialization (nstart > 20)
Menghindari jebakan local optimum
Menjaga konsistensi hasil klaster
4. Penentuan Jumlah Klaster Optimal
1.Mengapa Jumlah Klaster Tidak Boleh Ditentukan Secara Subjektif
Menentukan jumlah klaster (\(K\)) secara sembarangan (misalnya langsung memilih \(K = 3\)) merupakan kesalahan metodologis karena:
Tidak menjamin struktur klaster mencerminkan pola alami data
Berpotensi menghasilkan klaster yang terlalu umum atau terlalu spesifik
Menurunkan validitas hasil analisis
Oleh karena itu, diperlukan kriteria kuantitatif untuk menentukan jumlah klaster yang optimal.
Dalam analisis ini, jumlah klaster optimal ditentukan menggunakan dua pendekatan utama:
A. Metode Elbow
B. Silhouette Coefficient
Penggunaan lebih dari satu metode bertujuan untuk meningkatkan keandalan keputusan.
A. Prinsip Dasar
Metode Elbow mengevaluasi:
B. Secara umum:
WCSS akan selalu menurun saat \(K\) bertambah
Titik optimal ditandai dengan penurunan yang mulai melambat (elbow point)
C. Interpretasi pada Dataset Healthcare
Hasil evaluasi menunjukkan bahwa:
Penurunan WCSS signifikan terjadi hingga \(K=3\)
Setelah \(K>3\), penurunan WCSS relatif kecil
Hal ini mengindikasikan bahwa:
Penambahan klaster setelah titik tersebut tidak memberikan peningkatan struktur yang berarti.
A. Prinsip Dasar
Silhouette coefficient mengukur:
Kohesi (seberapa dekat data dengan klasternya sendiri)
Separasi (seberapa jauh data dari klaster lain)
Nilai silhouette berada pada rentang:
\[-1 \leq s(i) \leq 1\] Interpretasi:
\[s(i) \approx 1 \quad\] : klaster sangat baik
\[s(i) \approx 0 \quad\] : klaster tumpang tindih
\[s(i) < 0 \quad\] : salah pengelompokan
B. Hasil pada Dataset
Evaluasi menunjukkan bahwa:
Rata-rata nilai silhouette tertinggi diperoleh pada \(K=3\)
Nilai silhouette menurun untuk \(K>3\)
Ini mengindikasikan bahwa:
Kesimpulan Penentuan Jumlah Klaster
| Metode | Hasil |
|---|---|
| Elbow | Titik optimal pada \(K = 3\) |
| Silhouette | Nilai Silhouette Score maksimum pada \(K = 3\) |
Maka ditetapkan bahwa:
Selain alasan statistik, pemilihan tiga klaster juga masuk akal secara konteks operasional:
Klaster beban rendah
Klaster beban sedang
Klaster beban tinggi
Segmentasi ini:
Mudah diinterpretasikan
Relevan untuk pengambilan keputusan manajerial
Konsisten dengan praktik umum dalam analisis kinerja layanan kesehatan
5. Interpretasi Karakteristik Masing-Masing Klaster
Setelah penerapan K-Means dengan jumlah klaster optimal \(K=3\), diperoleh tiga kelompok utama yang merepresentasikan pola operasional rumah sakit yang berbeda. Interpretasi dilakukan berdasarkan nilai centroid (rata-rata) dari setiap variabel kunci.
Ketiga klaster dapat dikarakterisasi sebagai berikut:
| Klaster | Profil Umum |
|---|---|
| Klaster 1 | Beban layanan rendah dan efisiensi moderat |
| Klaster 2 | Operasional seimbang dan stabil |
| Klaster 3 | Beban tinggi dan aktivitas intensif |
Segmentasi ini mencerminkan variasi performa rumah sakit dalam menghadapi fluktuasi permintaan layanan dan tekanan operasional.
A. Karakteristik Utama:
Klaster ini ditandai oleh:
Jumlah patient_visits relatif rendah
staff_workload lebih ringan
Tingkat bed_occupancy_rate berada di bawah rata-rata
Biaya operasional relatif rendah
Pendapatan dan profit cenderung moderat
B. Interpretasi:
Klaster ini merepresentasikan:
Kondisi ini dapat terjadi pada:
Hari kerja tertentu dengan volume pasien rendah
Periode non-puncak (off-peak)
C. Implikasi:
Potensi efisiensi sumber daya belum optimal
Terdapat peluang penyesuaian jadwal staf
Bisa dimanfaatkan untuk kegiatan pemeliharaan fasilitas atau pelatihan tenaga medis
A. Karakteristik Utama:
Klaster ini menunjukkan:
patient_visits pada tingkat menengah
staff_workload seimbang
bed_occupancy_rate mendekati kapasitas optimal
operational_cost sebanding dengan pendapatan
efficiency_index relatif tinggi
B. Interpretasi:
Klaster ini menggambarkan:
C. Implikasi:
Menjadi referensi standar operasional
Mewakili kondisi paling efisien
Dapat dijadikan baseline performa rumah sakit
A. Karakteristik Utama:
Klaster ini dicirikan oleh:
patient_visits sangat tinggi
staff_workload meningkat signifikan
bed_occupancy_rate mendekati kapasitas maksimum
Biaya operasional tinggi
Pendapatan meningkat, namun risiko penurunan efisiensi
B. Interpretasi:
Klaster ini mencerminkan:
C. Implikasi:
Potensi kelelahan tenaga medis meningkat
Risiko penurunan kualitas pelayanan
Membutuhkan perencanaan kapasitas tambahan
| Klaster | Profil Umum |
|---|---|
| Klaster 1 | Beban layanan rendah dan efisiensi moderat |
| Klaster 2 | Operasional seimbang dan stabil |
| Klaster 3 | Beban tinggi dan aktivitas intensif |
6. Implikasi Praktis dari Hasil Pengelompokan
Hasil pengelompokan tidak hanya berfungsi sebagai output analitis, tetapi harus dapat diterjemahkan menjadi rekomendasi operasional yang dapat ditindaklanjuti. Berdasarkan tiga klaster yang terbentuk, terdapat beberapa implikasi praktis utama.
Segmentasi klaster memungkinkan rumah sakit untuk:
Implementasi:
A. Klaster beban tinggi:
Penambahan shift tenaga medis
Penguatan unit gawat darurat dan rawat inap
B. Klaster beban rendah:
Pengurangan staf non-esensial
Penjadwalan pelatihan internal
Informasi bed_occupancy_rate dalam klaster memberikan dasar untuk:
Prediksi kebutuhan kapasitas
Pencegahan overload fasilitas
Dampak Praktis:
Mengurangi antrean pasien
Menekan risiko penurunan kualitas pelayanan
Meningkatkan kenyamanan pasien
Klaster dengan biaya tinggi dan efisiensi rendah menjadi:
Langkah strategis:
Audit biaya unit layanan
Evaluasi prosedur yang boros sumber daya
Optimalisasi rantai pasok medis
A. Klaster beban tinggi memiliki karakteristik:
Tekanan kerja tinggi
Potensi kesalahan medis meningkat
Risiko burnout staf
B. Dengan clustering, rumah sakit dapat:
Mendeteksi periode risiko lebih awal
Menyusun strategi mitigasi beban kerja
Meningkatkan keselamatan pasien
Hasil clustering dapat diintegrasikan ke dalam:
Dashboard operasional
Sistem peringatan dini
Laporan evaluasi kinerja bulanan
Sehingga keputusan tidak lagi berbasis intuisi, melainkan:
Dalam jangka panjang, hasil clustering mendukung:
| Aspek | Dampak |
|---|---|
| Efisiensi | Meningkat |
| Kepuasan pasien | Lebih stabil |
| Biaya operasional | Lebih terkendali |
| Kualitas keputusan | Lebih objektif |
---
title: "UAS Analisis dan Pemodelan Prediktif"
output:
flexdashboard::flex_dashboard:
theme: yeti
source_code: embed
---
```{r setup, include=FALSE}
packages <- c(
"flexdashboard",
"tidyverse",
"highcharter",
"viridis",
"DT",
"gapminder",
"jsonlite"
)
installed <- packages %in% rownames(installed.packages())
if (any(!installed)) {
install.packages(packages[!installed])
}
# Load library
library(flexdashboard)
library(tidyverse)
library(highcharter)
library(viridis)
library(DT)
library(gapminder)
library(jsonlite)
```
Members {data-orientation=rows}
=======================================================================
### Foto Tim
<div style="text-align:center;">
<img src="Foto.tim.jpeg"
style="
width:500px;
height:500px;
border-radius:50%;
object-fit:cover;
">
</div>
| Nama Lengkap | NIM | Program Studi |
|:-------------------------:|:----------:|:-------------:|
| Dwi Sri Yanti Manullang | 52240030 | Sains Data |
| Chello Frhino Mike Mandolang| 52240031 | Sains Data |
Objectives {data-orientation=rows}
=======================================================================
### A. Pemahaman Dataset dan Analisis Data Eksploratori (EDA)
**1. Konteks Dataset dan Tujuan Analitis**
Dataset healthcare yang digunakan merepresentasikan aktivitas operasional dan kinerja layanan rumah sakit dalam periode waktu harian. Dataset ini mencakup informasi terkait jumlah kunjungan pasien, beban kerja staf medis, tingkat okupansi tempat tidur, biaya operasional, pendapatan, profitabilitas, kepuasan pasien, serta kategori risiko pasien dan status churn.
Tujuan utama analisis adalah untuk:
1. Memahami pola operasional rumah sakit dari sisi pelayanan dan keuangan.
2. Mengidentifikasi hubungan antara beban operasional, kualitas layanan, dan kepuasan pasien.
3. Menganalisis faktor-faktor yang berkontribusi terhadap churn pasien.
4. Mengembangkan model analitis dan prediktif untuk mendukung pengambilan keputusan berbasis data.
Analisis ini diharapkan dapat memberikan wawasan strategis terkait efisiensi operasional, kualitas pelayanan, serta potensi peningkatan kinerja rumah sakit.
**2. Struktur Dataset dan Jenis Variabel**
Dataset terdiri dari observasi harian dengan struktur variabel sebagai berikut:
**A. Variabel Waktu**
- *date* : Berfungsi sebagai indeks waktu untuk analisis deret waktu dan pemodelan tren operasional.
**B. Variabel Numerik (Continuous)**
Variabel numerik merepresentasikan aspek operasional, finansial, dan kualitas layanan, antara lain:
- *patient_visits* : jumlah kunjungan pasien harian
- *staff_workload* : tingkat beban kerja staf
- *avg_treatment_cost* : rata-rata biaya perawatan
- *bed_occupancy_rate* : tingkat okupansi tempat tidur (%)
- *treatment_intensity* : intensitas layanan medis
- *operational_cost* : biaya operasional
- *num_procedures* : jumlah tindakan medis
- *patient_satisfaction* : skor kepuasan pasien
- *efficiency_index* : indeks efisiensi operasional
- *revenue* : pendapatan
- *profit* : laba rumah sakit
**C. Variabel Kategorikal**
- *patient_category* : kategori risiko pasien (Low Risk, Medium Risk, High Risk)
- *hospital_region* : wilayah rumah sakit
- *churn* : status pasien berhenti menggunakan layanan (Yes/No)
Variabel *churn* digunakan sebagai target utama dalam analisis klasifikasi.
**3. Statistik Deskriptif**
Analisis statistik deskriptif digunakan untuk memberikan gambaran umum karakteristik data.
Beberapa temuan utama yang diperoleh:
A. Kunjungan pasien (*patient_visits*) menunjukkan variasi yang cukup tinggi antar hari, yang mengindikasikan fluktuasi permintaan layanan kesehatan.
B. Biaya operasional (*operational_cost*) dan pendapatan (*revenue*) memiliki rentang nilai yang besar, menunjukkan perbedaan intensitas aktivitas operasional antar periode.
C. Skor kepuasan pasien (*patient_satisfaction*) berada pada rentang menengah hingga tinggi, yang mengindikasikan kualitas layanan relatif stabil namun masih memiliki ruang untuk peningkatan.
D. Profit (*profit*) menunjukkan variasi signifikan, yang menandakan bahwa efisiensi operasional belum konsisten pada seluruh periode observasi.
Statistik ini menjadi dasar untuk analisis hubungan antar variabel dan pengembangan model prediktif.
**4. Identifikasi dan bahas:**
**A. Identifikasi Nilai Hilang (Missing Value)**
Pemeriksaan data menunjukkan bahwa beberapa variabel numerik, khususnya *avg_treatment_cost*, memiliki nilai yang hilang.
Keberadaan missing value berpotensi menyebabkan bias dalam analisis statistik dan pemodelan jika tidak ditangani dengan benar. Oleh karena itu, strategi penanganan yang digunakan adalah imputasi berbasis median untuk mempertahankan distribusi data dan mengurangi pengaruh outlier.
Pendekatan ini dipilih karena median lebih robust terhadap nilai ekstrem dibandingkan mean.
**B. Identifikasi Nilai Penyimpangan (Outlier)**
Deteksi outlier dilakukan pada variabel numerik utama seperti:
- *patient_visits*
- *operational_cost*
- *revenue*
- *profit*
Hasil eksplorasi menunjukkan adanya beberapa nilai ekstrem, terutama pada variabel finansial. Outlier ini mencerminkan periode dengan aktivitas operasional yang sangat tinggi atau kondisi khusus seperti lonjakan pasien.
Outlier tidak langsung dihapus, namun dianalisis secara kontekstual karena dapat merepresentasikan fenomena nyata yang relevan dalam sistem layanan kesehatan.
**C. Analisis Distribusi Data**
Distribusi variabel numerik menunjukkan karakteristik yang berbeda-beda:
A. Variabel seperti *patient_visits* dan *num_procedures* cenderung menunjukkan distribusi mendekati normal.
B. Variabel finansial seperti *operational_cost* dan *revenue* cenderung memiliki distribusi miring ke kanan (right-skewed), yang mengindikasikan adanya periode dengan nilai sangat tinggi.
C. Variabel kepuasan pasien memiliki distribusi yang relatif terpusat, menunjukkan konsistensi persepsi kualitas layanan.
Pemahaman distribusi ini penting untuk pemilihan metode analisis dan asumsi model selanjutnya.
**5. Visualisasi Data Eksploratori**
Untuk mendukung analisis eksploratori, digunakan minimal lima visualisasi utama, yaitu:
A. Grafik tren kunjungan pasien berdasarkan waktu.
B. Histogram distribusi kepuasan pasien.
C. Boxplot biaya operasional untuk mendeteksi outlier.
D. Scatter plot hubungan antara kunjungan pasien dan pendapatan.
E. Diagram batang distribusi kategori churn pasien.
Visualisasi ini memberikan gambaran intuitif terhadap pola data dan mendukung interpretasi hasil analisis.
----
### B. Analisis Hubungan dan Pola**
**1. Identifikasi Variabel Kunci**
Berdasarkan tujuan analisis dan struktur dataset, beberapa variabel kunci yang dianalisis meliputi:
**A. Variabel Operasional**
- *patient_visits*
- *staff_workload*
- *bed_occupancy_rate*
- *num_procedures*
**B. Variabel Finansial**
- *operational_cost*
- *revenue*
- *profit*
**C. Variabel Kualitas Layanan**
- *patient_satisfaction*
- *treatment_intensity*
- *efficiency_index*
**D. Variabel Target Kategorikal**
- *churn*
- *patient_category*
Pemilihan variabel ini didasarkan pada keterkaitan langsung antara beban operasional, kualitas layanan, performa keuangan, dan perilaku pasien.
**2. Analisis Korelasi Antar Variabel Numerik**
Analisis korelasi digunakan untuk mengidentifikasi hubungan linier antar variabel numerik utama.
Beberapa pola hubungan yang diamati:
A. Kunjungan pasien (*patient_visits*) dan pendapatan (*revenue*) menunjukkan hubungan positif, yang mengindikasikan bahwa peningkatan jumlah pasien berkontribusi langsung terhadap peningkatan pendapatan rumah sakit.
B. Beban kerja staf (*staff_workload*) dan biaya operasional (*operational_cost*) juga menunjukkan korelasi positif, yang mencerminkan bahwa peningkatan aktivitas layanan meningkatkan kebutuhan sumber daya dan biaya operasional.
C. Indeks efisiensi (*efficiency_index*) dan profit (*profit*) menunjukkan hubungan positif moderat, yang mengindikasikan bahwa efisiensi operasional berperan dalam meningkatkan kinerja keuangan.
Analisis ini memberikan dasar untuk pemilihan variabel dalam pemodelan regresi dan prediktif.
**3. Analisis Regresi Awal (Exploratory Regression)**
Sebagai eksplorasi awal hubungan sebab-akibat, dilakukan analisis regresi linear sederhana dan multivariat dengan tujuan memahami faktor yang memengaruhi profit dan kepuasan pasien.
Contoh hubungan yang dianalisis:
**A. Profit sebagai variabel dependen**
Variabel independen utama:
- *patient_visits*
- *operational_cost*
- *efficiency_index*
Hasil analisis menunjukkan bahwa:
- *patient_visits* memiliki pengaruh positif terhadap profit, yang menunjukkan bahwa volume layanan menjadi faktor utama pembentuk pendapatan.
- *operational_cost* memiliki pengaruh negatif, yang mengindikasikan bahwa pengendalian biaya merupakan faktor penting dalam menjaga profitabilitas.
- *efficiency_index* berkontribusi positif, yang menegaskan peran efisiensi operasional dalam meningkatkan kinerja keuangan.
**4. Analisis Tabulasi Silang (Cross Tabulation)**
Untuk variabel kategorikal, digunakan tabulasi silang untuk mengevaluasi pola hubungan antar kategori.
Contoh analisis:
**A. Hubungan antara** *patient_category* **dan** *churn*
Hasil tabulasi menunjukkan bahwa:
- Pasien dengan kategori High Risk memiliki proporsi churn yang lebih tinggi dibandingkan kategori risiko lainnya.
- Pasien kategori Low Risk menunjukkan tingkat retensi yang lebih baik.
Temuan ini mengindikasikan bahwa kelompok pasien berisiko tinggi memerlukan perhatian khusus dalam strategi pelayanan dan retensi.
**5. Identifikasi Masalah Data Potensial**
Dalam analisis hubungan antar variabel, ditemukan beberapa potensi permasalahan data yang perlu diperhatikan:
**A. Multikolinearitas**
Beberapa variabel operasional seperti:
- *patient_visits*
- *num_procedures*
- *staff_workload*
memiliki keterkaitan yang kuat satu sama lain. Hal ini berpotensi menyebabkan multikolinearitas dalam model regresi multivariat.
Multikolinearitas dapat menyebabkan koefisien regresi menjadi tidak stabil dan sulit diinterpretasikan. Oleh karena itu, diperlukan pemeriksaan lanjutan menggunakan Variance Inflation Factor (VIF) pada tahap pemodelan.
**B. Heterogenitas Varians (Heteroskedastisitas)**
Pada variabel finansial seperti *revenue* dan *profit*, terdapat indikasi bahwa varians residual meningkat seiring dengan nilai prediksi. Kondisi ini menunjukkan potensi heteroskedastisitas, yang dapat memengaruhi keakuratan estimasi parameter regresi.
Masalah ini akan ditangani pada tahap pemodelan dengan evaluasi residual dan transformasi variabel jika diperlukan.
**6. Interpretasi Pola Utama**
Berdasarkan hasil analisis hubungan dan pola, dapat disimpulkan bahwa:
A. Aktivitas operasional rumah sakit secara langsung memengaruhi kinerja keuangan.
B. Efisiensi operasional memiliki peran penting dalam menjaga profitabilitas.
C. Karakteristik pasien, khususnya kategori risiko, berkaitan erat dengan perilaku churn.
D. Kompleksitas hubungan antar variabel menuntut pendekatan analisis multivariat dan model prediktif yang lebih komprehensif.
Temuan ini menjadi dasar untuk pengembangan model regresi, klasifikasi, dan analisis lanjutan pada tahap berikutnya.
---
### C. Analisis Lanjutan (Bergantung pada Konteks)
**1. Analisis Deret Waktu (Time Series Analysis)**
Dataset memiliki variabel date yang merepresentasikan observasi harian, sehingga memungkinkan dilakukan analisis berbasis deret waktu.
Fokus utama analisis deret waktu diarahkan pada variabel:
- *patient_visits*
- *staff_workload*
- *revenue*
Tujuan analisis deret waktu meliputi:
A. Mengidentifikasi tren jangka panjang dalam kunjungan pasien dan pendapatan.
B. Mengamati pola fluktuasi harian yang dapat merepresentasikan variasi operasional rumah sakit.
C. Menyediakan dasar untuk pemodelan peramalan beban kerja dan permintaan layanan.
Analisis awal menunjukkan bahwa:
A. Kunjungan pasien dan beban kerja staf mengalami fluktuasi periodik.
B. Pendapatan rumah sakit mengikuti pola yang sejalan dengan volume kunjungan pasien.
Hasil ini menjadi dasar untuk penerapan metode dekomposisi deret waktu dan model peramalan pada halaman khusus time series.
**2. Analisis Pengelompokan (Clustering)**
Analisis pengelompokan dilakukan untuk mengidentifikasi pola segmentasi dalam data operasional rumah sakit.
Variabel numerik yang relevan untuk clustering meliputi:
- *patient_visits*
- *avg_treatment_cost*
- *bed_occupancy_rate*
- *efficiency_index*
- *patient_satisfaction*
Tujuan utama clustering adalah:
A. Mengelompokkan periode operasional berdasarkan karakteristik layanan dan kinerja.
B. Mengidentifikasi segmen periode dengan kinerja tinggi, sedang, dan rendah.
C. Memberikan dasar bagi strategi perbaikan operasional berbasis segmentasi data.
Analisis ini membantu rumah sakit dalam memahami pola operasional yang berbeda dan mengoptimalkan alokasi sumber daya.
**3. Deteksi Risiko dan Anomali**
Deteksi anomali dilakukan untuk mengidentifikasi kondisi operasional yang menyimpang dari pola normal.
Fokus utama deteksi anomali diarahkan pada:
A. Lonjakan ekstrem *patient_visits*
B. Nilai tidak normal pada *operational_cost*
C. Penurunan tajam *patient_satisfaction*
Anomali tersebut dapat merepresentasikan:
A. Periode wabah atau lonjakan pasien darurat
B. Gangguan sistem operasional
C. Penurunan kualitas layanan akibat overload sumber daya
Identifikasi anomali ini penting untuk mendukung sistem peringatan dini dan pengambilan keputusan cepat dalam konteks operasional rumah sakit.
**4. Klasifikasi dan Peramalan**
Dataset menyediakan variabel target kategorikal *churn*, sehingga memungkinkan dilakukan analisis klasifikasi untuk memprediksi kemungkinan pasien berhenti menggunakan layanan.
Tujuan klasifikasi meliputi:
A. Mengidentifikasi faktor yang memengaruhi churn pasien.
B. Membangun model prediktif untuk mendukung strategi retensi pasien.
Selain itu, keberadaan data berbasis waktu memungkinkan dilakukan peramalan (forecasting) terhadap:
Jumlah kunjungan pasien
- Beban kerja staf
- Peramalan ini berguna dalam perencanaan sumber daya dan manajemen kapasitas rumah sakit.
**5. Integrasi Analisis Lanjutan dengan Tahap Pemodelan**
Analisis lanjutan ini berperan sebagai fondasi untuk:
A. Pengembangan model regresi pada halaman Regresi.
B. Pemodelan klasifikasi pada halaman Klasifikasi.
C. Segmentasi data pada halaman Clustering.
D. Pemodelan deret waktu pada halaman Time Series.
Dengan pendekatan ini, setiap metode analisis tidak berdiri sendiri, tetapi saling terintegrasi dalam satu alur analisis yang sistematis.
---
### D. Model Analitis / Prediktif
**1. Tujuan Pengembangan Model**
Pengembangan model analitis dan prediktif dilakukan dengan dua tujuan utama:
A. Model regresi untuk memahami faktor-faktor yang memengaruhi kinerja finansial rumah sakit, khususnya profit.
B. Model klasifikasi untuk memprediksi kemungkinan terjadinya churn pasien.
Pendekatan ini dipilih karena dataset mengandung variabel numerik kontinu yang relevan untuk regresi serta variabel target kategorikal (*churn*) yang sesuai untuk tugas klasifikasi.
**2. Pemilihan Model dan Justifikasi Metodologis**
**A. Model Regresi Linear Multivariat**
Model regresi linear multivariat dipilih dengan:
- Variabel dependen: *profit*
- Variabel independen utama:
1. *patient_visits*
2. *operational_cost*
3. *efficiency_index*
4. *bed_occupancy_rate*
Alasan pemilihan regresi linear:
A. Variabel target bersifat kontinu.
B. Tujuan analisis adalah interpretasi hubungan sebab-akibat antar variabel.
C. Model linear mudah diinterpretasikan dan sesuai untuk analisis awal performa finansial.
**B. Model Klasifikasi (Logistic Regression)**
Untuk tugas klasifikasi, digunakan regresi logistik dengan:
- Variabel target: *churn* (Yes/No)
- Variabel prediktor:
1. *patient_satisfaction*
2. *patient_category*
3. *staff_workload*
4. *efficiency_index*
Regresi logistik dipilih karena:
A. Variabel target bersifat biner.
B. Model mampu menghasilkan probabilitas churn.
C. Interpretasi koefisien dalam bentuk odds ratio relevan untuk konteks pengambilan keputusan manajerial.
**3. Asumsi Dasar Model**
**Untuk Regresi Linear:**
Beberapa asumsi utama yang diperhatikan meliputi:
A. Linearitas : Hubungan antara variabel independen dan profit diasumsikan bersifat linier.
B. Normalitas Residual : Residual model diharapkan mengikuti distribusi normal.
C. Homoskedastisitas : Varians residual diasumsikan konstan pada seluruh rentang nilai prediksi.
D. Independensi : Observasi diasumsikan tidak saling bergantung secara langsung.
**Untuk Model Klasifikasi:**
Asumsi yang diperhatikan meliputi:
A. Tidak terdapat multikolinearitas tinggi antar prediktor.
B. Hubungan antara log-odds dan variabel prediktor bersifat linier.
C. Dataset memiliki jumlah observasi yang memadai untuk pembelajaran model.
**4. Evaluasi Kinerja Model**
**A. Evaluasi Model Regresi**
Kinerja model regresi dievaluasi menggunakan metrik berikut:
A. R-squared ($R²$) untuk mengukur proporsi variasi profit yang dapat dijelaskan oleh model.
B. RMSE (Root Mean Squared Error) untuk mengukur besarnya kesalahan prediksi.
C. MAE (Mean Absolute Error) untuk mengevaluasi rata-rata deviasi absolut prediksi.
Nilai metrik ini digunakan untuk menilai akurasi prediksi serta stabilitas model.
**B. Evaluasi Model Klasifikasi**
Model klasifikasi dievaluasi menggunakan:
A. Akurasi
B. Precision
C. Recall
D. F1-score
E. ROC-AUC
Evaluasi dilakukan pada data uji untuk menghindari bias overfitting dan memastikan kemampuan generalisasi model.
**5. Pembahasan Hasil Model**
**A. Model Regresi**
Hasil regresi menunjukkan bahwa:
- *patient_visits* memiliki pengaruh positif signifikan terhadap profit.
- *operational_cost* memiliki pengaruh negatif terhadap profit.
- *efficiency_index* memberikan kontribusi positif terhadap kinerja finansial.
Hal ini mengindikasikan bahwa peningkatan volume layanan perlu diimbangi dengan efisiensi biaya agar profitabilitas tetap optimal.
**B. Model Klasifikasi**
Hasil klasifikasi menunjukkan bahwa:
- *patient_satisfaction* merupakan prediktor utama churn.
- Pasien dengan kategori risiko tinggi memiliki probabilitas churn yang lebih besar.
- Beban kerja staf yang tinggi berkorelasi dengan peningkatan risiko churn pasien.
Temuan ini memberikan dasar empiris untuk strategi peningkatan kualitas layanan dan retensi pasien.
**6. Keterbatasan Model dan Potensi Perbaikan**
Beberapa keterbatasan model yang diidentifikasi meliputi:
A. Model regresi linear belum sepenuhnya menangkap hubungan non-linear antar variabel.
B. Model klasifikasi masih berpotensi terpengaruh oleh ketidakseimbangan kelas churn.
C. Faktor eksternal seperti kebijakan kesehatan atau kondisi darurat belum tercakup dalam dataset.
Potensi perbaikan yang dapat dilakukan:
A. Menggunakan model non-linear seperti Random Forest atau Gradient Boosting.
B. Menerapkan teknik penyeimbangan data seperti SMOTE pada klasifikasi.
C. Menambahkan fitur berbasis waktu dan interaksi antar variabel.
---
### E. Wawasan, Kesimpulan, dan Rekomendasi
**1. Ringkasan Temuan Utama**
Berdasarkan seluruh tahapan analisis eksploratori, analisis hubungan, analisis lanjutan, serta pengembangan model prediktif, diperoleh beberapa temuan utama sebagai berikut:
A. Aktivitas operasional rumah sakit, khususnya jumlah kunjungan pasien dan beban kerja staf, memiliki pengaruh langsung terhadap kinerja keuangan dan kualitas layanan.
B. Efisiensi operasional berperan penting dalam meningkatkan profitabilitas, sebagaimana ditunjukkan oleh hubungan positif antara indeks efisiensi dan profit.
C. Kepuasan pasien merupakan faktor kunci dalam menentukan perilaku churn, di mana tingkat kepuasan yang rendah berkorelasi dengan meningkatnya kemungkinan pasien berhenti menggunakan layanan.
D. Data berbasis waktu menunjukkan adanya fluktuasi operasional yang signifikan, sehingga perencanaan berbasis peramalan menjadi kebutuhan penting dalam manajemen rumah sakit.
E. Segmentasi berbasis clustering mengindikasikan adanya perbedaan karakteristik periode operasional, yang dapat dimanfaatkan untuk optimalisasi strategi layanan.
**2. Wawasan Berbasis Data (Data-Driven Insights)**
Dari hasil analisis, diperoleh beberapa wawasan strategis yang relevan bagi pengelolaan layanan kesehatan:
A. Pertumbuhan volume pasien tidak selalu menjamin peningkatan profit : Peningkatan jumlah pasien perlu diimbangi dengan pengendalian biaya operasional agar tidak menurunkan margin keuntungan.
B. Efisiensi operasional menjadi faktor pembeda utama : Periode dengan indeks efisiensi tinggi cenderung menghasilkan profit yang lebih stabil, meskipun jumlah kunjungan tidak selalu maksimal.
C. Kepuasan pasien merupakan indikator awal risiko churn : Penurunan skor kepuasan dapat digunakan sebagai sinyal dini untuk intervensi layanan sebelum pasien benar-benar berhenti menggunakan layanan.
D. Beban kerja staf berdampak tidak langsung terhadap kualitas layanan : Lonjakan workload berpotensi menurunkan kualitas interaksi layanan, yang pada akhirnya memengaruhi kepuasan dan retensi pasien.
**3. Kesimpulan Umum**
Berdasarkan hasil analisis komprehensif, dapat disimpulkan bahwa kinerja rumah sakit tidak hanya ditentukan oleh volume layanan, tetapi juga oleh kualitas manajemen operasional dan efisiensi sumber daya.
Pendekatan analitik berbasis data terbukti mampu memberikan gambaran yang lebih objektif mengenai faktor-faktor yang memengaruhi profitabilitas dan perilaku pasien. Oleh karena itu, pemanfaatan model analitis dan prediktif menjadi instrumen penting dalam mendukung pengambilan keputusan strategis di sektor layanan kesehatan.
**4. Rekomendasi Praktis dan Dapat Ditindaklanjuti**
Berdasarkan temuan dan wawasan yang diperoleh, beberapa rekomendasi yang dapat diterapkan antara lain:
**A. Optimalisasi Manajemen Beban Kerja Staf**
Rumah sakit disarankan untuk:
- Menyesuaikan jadwal kerja staf berdasarkan pola kunjungan pasien.
- Menggunakan hasil peramalan kunjungan pasien untuk perencanaan kapasitas.
Tujuan utama adalah menjaga kualitas layanan sekaligus mengurangi tekanan operasional berlebih.
**B. Peningkatan Program Retensi Pasien**
Untuk menekan tingkat churn, disarankan:
- Fokus pada peningkatan kepuasan pasien melalui perbaikan alur layanan.
- Memberikan perhatian khusus kepada pasien dengan kategori risiko tinggi.
- Pendekatan ini dapat meningkatkan loyalitas pasien dan stabilitas pendapatan.
**C. Penguatan Strategi Efisiensi Biaya**
Manajemen disarankan untuk:
- Mengidentifikasi komponen biaya operasional yang paling berkontribusi terhadap pemborosan.
- Mengintegrasikan sistem monitoring biaya berbasis data secara berkala.
Langkah ini bertujuan untuk meningkatkan profit tanpa mengorbankan kualitas layanan.
**D. Pemanfaatan Sistem Prediktif untuk Pengambilan Keputusan**
- Model prediktif yang dikembangkan dapat dimanfaatkan untuk:
- Memprediksi risiko churn pasien.
- Memproyeksikan kebutuhan sumber daya rumah sakit.
Dengan demikian, keputusan operasional dapat diambil secara lebih proaktif dan berbasis data.
---
Dataset {data-orientation=rows}
=======================================================================
### Table healthcare_Dataset
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(DT)
# Load dataset
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
# Replace missing values with "N/A" for display only
df_display <- df %>%
mutate(across(everything(), ~ ifelse(is.na(.), "N/A", as.character(.))))
# Display dataset table
datatable(
df_display,
options = list(
scrollX = TRUE,
pageLength = 10
),
caption = htmltools::tags$caption(
style = 'caption-side: bottom; text-align: center;',
'Table: ',
htmltools::em('Healthcare Dataset')
)
)
```
---
EDA {data-orientation=rows}
=======================================================================
## Column {.tabset .tabset-fade data-height=520}
-----------------------------------------------------------------------
### Chart 1 {data-width=600 data-height=510}
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(plotly)
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
df$date <- as.Date(df$date)
#1. Distribution of Patient Visits
p1 <- ggplot(df, aes(x = patient_visits)) +
geom_histogram(bins = 30, fill = "#2C7FB8", color = "white") +
labs(
title = "Distribution of Patient Visits",
x = "Number of Patient Visits",
y = "Frequency"
) +
theme_minimal()
ggplotly(p1)
```
-----------------------------------------------------------------------
### Interpretasi Chart 1
1. Distribusi Patient Visits (Histogram)
Interpretasi:
Distribusi jumlah kunjungan pasien menunjukkan pola yang mendekati distribusi normal (bell-shaped) dengan konsentrasi utama pada rentang sekitar 300–380 kunjungan per periode. Hal ini mengindikasikan bahwa volume pasien rumah sakit relatif stabil pada nilai tengah tertentu, dengan variasi moderat di kedua sisi distribusi.
Keberadaan nilai ekstrem di sisi kanan (kunjungan tinggi) menunjukkan adanya periode dengan lonjakan pasien yang berpotensi berkaitan dengan faktor musiman, kejadian khusus, atau peningkatan kebutuhan layanan kesehatan. Kondisi ini penting untuk diperhatikan dalam perencanaan kapasitas operasional dan sumber daya rumah sakit.
---
### Chart 2 {data-width=600 data-height=510}
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(plotly)
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
df$date <- as.Date(df$date)
#2. Bed Occupancy Rate
p2 <- ggplot(df, aes(y = bed_occupancy_rate)) +
geom_boxplot(fill = "#7FCDBB") +
labs(
title = "Distribution of Bed Occupancy Rate",
y = "Occupancy Rate (%)"
) +
theme_minimal()
ggplotly(p2)
```
-----------------------------------------------------------------------
### Interpretasi Chart 2
2. Distribusi Bed Occupancy Rate (Boxplot)
Interpretasi:
Visualisasi boxplot tingkat okupansi tempat tidur memperlihatkan bahwa sebagian besar nilai berada pada kisaran menengah hingga tinggi. Namun, terdapat beberapa nilai ekstrem (outlier) yang mengindikasikan periode ketika tingkat okupansi sangat rendah atau sangat tinggi.
Outlier dengan okupansi tinggi dapat mencerminkan kondisi overload layanan rumah sakit, yang berpotensi menurunkan kualitas pelayanan. Sebaliknya, okupansi rendah dapat menunjukkan inefisiensi pemanfaatan fasilitas. Temuan ini menegaskan pentingnya pengelolaan kapasitas tempat tidur secara dinamis.
---
### Chart 3 {data-width=600 data-height=510}
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(plotly)
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
df$date <- as.Date(df$date)
#3. Staff Workload vs Patient Visits
p3 <- ggplot(df, aes(x = staff_workload, y = patient_visits)) +
geom_point(color = "#1D91C0", alpha = 0.7) +
geom_smooth(method = "lm", se = FALSE, color = "#D95F02") +
labs(
title = "Relationship Between Staff Workload and Patient Visits",
x = "Staff Workload Index",
y = "Patient Visits"
) +
theme_minimal()
ggplotly(p3)
```
-----------------------------------------------------------------------
### Interpretasi Chart 3
3. Hubungan Staff Workload dan Patient Visits (Scatter Plot + Regresi Linear)
Interpretasi:
Scatter plot menunjukkan adanya hubungan positif antara beban kerja staf dan jumlah kunjungan pasien. Garis regresi linear yang menanjak mengindikasikan bahwa peningkatan jumlah pasien secara langsung diikuti oleh peningkatan beban kerja tenaga medis dan operasional.
Hubungan ini bersifat logis secara operasional karena semakin banyak pasien yang datang, semakin besar sumber daya manusia yang dibutuhkan. Temuan ini mendukung penggunaan variabel staff_workload sebagai prediktor potensial dalam model regresi pada tahap analisis selanjutnya.
---
### Chart 4 {data-width=600 data-height=510}
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(plotly)
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
df$date <- as.Date(df$date)
#4. Profit by Patient Category
p4 <- ggplot(df, aes(x = patient_category, y = profit, fill = patient_category)) +
geom_boxplot(show.legend = FALSE) +
labs(
title = "Profit Distribution by Patient Risk Category",
x = "Patient Category",
y = "Profit"
) +
theme_minimal()
ggplotly(p4)
```
-----------------------------------------------------------------------
### Interpretasi Chart 4
4. Profit Berdasarkan Kategori Risiko Pasien (Boxplot)
Interpretasi:
Distribusi profit berdasarkan kategori risiko pasien menunjukkan adanya perbedaan karakteristik keuntungan antar kelompok (Low Risk, Medium Risk, High Risk). Variasi median dan rentang profit mengindikasikan bahwa kelompok risiko tertentu berkontribusi lebih besar terhadap pendapatan rumah sakit.
Kelompok pasien berisiko tinggi cenderung menghasilkan profit yang lebih bervariasi, yang dapat disebabkan oleh tingginya intensitas perawatan dan biaya operasional yang menyertainya. Hasil ini relevan untuk strategi segmentasi pasien dan perencanaan layanan berbasis risiko.
---
### Chart 5 {data-width=600 data-height=510}
```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(plotly)
df <- read_csv("healthcare_Dataset.csv", show_col_types = FALSE)
df$date <- as.Date(df$date)
#5. Patient Visits Over Time
p5 <- ggplot(df, aes(x = date, y = patient_visits)) +
geom_line(color = "#238B45", linewidth = 1) +
labs(
title = "Patient Visits Over Time",
x = "Date",
y = "Patient Visits"
) +
theme_minimal()
ggplotly(p5)
```
-----------------------------------------------------------------------
### Interpretasi Chart 5
5. Tren Patient Visits dari Waktu ke Waktu (Time Series Plot)
Interpretasi:
Grafik deret waktu menunjukkan adanya fluktuasi jumlah kunjungan pasien dari waktu ke waktu. Pola naik-turun yang terlihat mengindikasikan adanya dinamika temporal, yang berpotensi dipengaruhi oleh faktor musiman, kebijakan kesehatan, atau kondisi eksternal lainnya.
Keberadaan pola temporal ini menjadi dasar yang kuat untuk menerapkan metode analisis deret waktu dan peramalan pada tahap lanjutan, guna memprediksi beban layanan di masa mendatang.
Secara keseluruhan, hasil EDA menunjukkan bahwa dataset healthcare memiliki variasi data yang cukup tinggi, pola distribusi yang informatif, serta hubungan yang logis antar variabel operasional utama. Ditemukan adanya nilai ekstrem pada beberapa indikator kinerja rumah sakit, serta pola temporal pada jumlah kunjungan pasien. Temuan ini menjadi dasar yang kuat untuk melanjutkan analisis ke tahap pemodelan regresi, klasifikasi, klasterisasi, dan peramalan deret waktu.
---
Regresi
=======================================================================
**1. Tujuan Analisis Regresi**
Analisis regresi pada penelitian ini bertujuan untuk membangun model kuantitatif yang mampu menjelaskan serta memprediksi profit rumah sakit berdasarkan variabel operasional utama, seperti jumlah kunjungan pasien, beban kerja staf, tingkat okupansi tempat tidur, dan biaya operasional. Selain itu, regresi digunakan untuk mengidentifikasi variabel yang memiliki pengaruh signifikan terhadap profit dan mendukung pengambilan keputusan berbasis data dalam konteks manajemen layanan kesehatan.
----
**2. Identifikasi Variabel Dependen dan Independen**
A. Variabel Dependen (Target):
- *Profit*
Alasan:
Variabel profit dipilih sebagai variabel dependen karena:
1. Bersifat numerik kontinu : Cocok untuk regresi linier.
2. Merepresentasikan kinerja finansial rumah sakit : Indikator utama keberhasilan operasional.
3. Dipengaruhi oleh banyak faktor internal : Sangat sesuai untuk pendekatan multivariat.
B. Variabel Independen
Variabel independen dipilih berdasarkan:
- Relevansi domain healthcaren (Seperti, *patient_visits*, *staff_workload*, *bed_occupancy_rate*, *avg_treatment_cost*, *operational_cost*, dan *treatment_intensity*.)
- Ketersediaan data
- Hubungan logis dengan profit
- Hasil eksplorasi data (EDA)
Pemilihan variabel ini bertujuan untuk menangkap pengaruh faktor layanan, biaya, dan kapasitas terhadap profit secara komprehensif.
----
**3. Pemilihan Model Regresi**
A. Model yang digunakan:
- **Multiple Linear Regression**
Bentuk umum model:
$$\text{Profit} = \beta_0 + \beta_1 X_1 + \cdots + \beta_n X_n + \varepsilon$$
Keterangan:
- $Profit$ = variabel dependen
- $βi$ = koefisien regresi
- $ϵ$ = error residual
B. Alasan Pemilihan Model
1. Target Variabel Bersifat Kontinu
*profit* adalah:
- Data numerik
- Skala rasio
- Nilai tidak terbatas pada kategori
Regresi linear adalah pendekatan standar untuk prediksi variabel kontinu.
2. Terdapat Banyak Prediktor
Dataset memiliki lebih dari satu faktor yang memengaruhi profit:
- Kunjungan pasien
- Beban staf
- Biaya operasional
- Efisiensi fasilitas
Model multivariat diperlukan untuk menangkap efek simultan.
3. Tujuan Tidak Hanya Prediksi, Tapi Interpretasi
Regresi linear memungkinkan:
- Interpretasi langsung koefisien
- Pengukuran arah dan besar pengaruh
- Pengujian signifikansi statistik
Hal ini penting karena:
Dalam konteks manajemen kesehatan, memahami faktor penyebab lebih penting daripada sekadar akurasi prediksi.
----
Kesimpulan:
Model yang digunakan dalam analisis ini adalah regresi linear berganda. Pemilihan model ini didasarkan pada karakteristik variabel target yang bersifat kontinu, keberadaan beberapa variabel prediktor, serta kebutuhan untuk menginterpretasikan pengaruh masing-masing faktor operasional terhadap profit rumah sakit. Selain itu, regresi linear berganda merupakan metode fundamental dalam analisis prediktif yang sesuai dengan tujuan penelitian dan struktur dataset yang digunakan.
----
**4. Pemeriksaan Asumsi Regresi**
A. Asumsi Linearitas : menyatakan bahwa hubungan antara variabel independen dan variabel dependen bersifat mendekati linear.
Secara matematis:
$$\mathbb{E}(Y \mid X) = \beta_0 + \beta_1 X_1 + \cdots + \beta_n X_n$$
Metode Pemeriksaan
Linearitas diperiksa menggunakan:
- Scatter plot antara prediktor utama dan target
- Plot residual vs fitted values
Hasil visualisasi menunjukkan bahwa hubungan antara variabel prediktor utama dengan profit cenderung mengikuti pola linear, serta tidak ditemukan pola kurva yang signifikan. Oleh karena itu, asumsi linearitas dapat dianggap terpenuhi.
B. Asumsi Normalitas Residual
Residual harus mengikuti distribusi normal agar:
- Uji t
- Uji F
- Interval kepercayaan
dapat diinterpretasikan secara valid.
Metode Pemeriksaan
Dilakukan menggunakan:
- Histogram residual
- Q-Q plot
- Uji Shapiro-Wilk (opsional)
Distribusi residual menunjukkan pola mendekati distribusi normal dengan penyimpangan yang relatif kecil pada bagian ekor. Hal ini mengindikasikan bahwa asumsi normalitas residual secara umum terpenuhi.
C. Asumsi Homoskedastisitas
Homoskedastisitas berarti:
- Varians residual konstan pada seluruh rentang nilai prediksi.
Jika tidak terpenuhi : terjadi heteroskedastisitas.
Metode Pemeriksaan
Digunakan:
- Plot residual vs fitted values
- Breusch-Pagan test (opsional)
Pola sebaran residual tidak menunjukkan peningkatan atau penurunan varians yang sistematis, sehingga asumsi homoskedastisitas dapat dianggap terpenuhi.
D. Asumsi Kemandirian Error (Independence)
Residual harus bersifat independen, artinya:
- Error satu observasi tidak memengaruhi observasi lain.
Ini penting terutama pada data berbasis waktu.
Metode Pemeriksaan
Menggunakan:
- Durbin-Watson test
- Plot residual berdasarkan urutan observasi
Nilai Durbin-Watson mendekati nilai ideal, yang menunjukkan bahwa residual bersifat independen dan tidak terdapat autokorelasi yang signifikan.
E. Asumsi Multikolinearitas
Multikolinearitas terjadi ketika:
- Variabel independen saling berkorelasi tinggi.
Ini menyebabkan:
- Koefisien tidak stabil
- Interpretasi menjadi tidak reliabel
Metode Pemeriksaan
Menggunakan:
- Variance Inflation Factor (VIF)
Kriteria umum:
| VIF | Interpretasi |
|:----:|:-------------:|
| < 5 | Aman |
| 5–10 | Perlu waspada|
10 | Bermasalah
Nilai VIF seluruh variabel independen berada di bawah ambang batas kritis, sehingga tidak ditemukan indikasi multikolinearitas yang signifikan dalam model.
----
**5. Interpretasi Koefisien dan Signifikansi**
Interpretasi koefisien bertujuan untuk memahami arah, besar pengaruh, dan signifikansi statistik dari setiap variabel independen terhadap variabel dependen (profit).
A. Interpretasi Intersep (Konstanta)
Nilai konstanta menggambarkan tingkat profit dasar ketika seluruh variabel prediktor berada pada nilai minimum. Walaupun kondisi tersebut jarang terjadi secara empiris, konstanta tetap diperlukan untuk membentuk persamaan regresi yang optimal.
B. Interpretasi Koefisien Variabel Independen
1. Patient Visits (Jumlah Kunjungan Pasien)
Variabel jumlah kunjungan pasien menunjukkan pengaruh positif terhadap profit, yang mengindikasikan bahwa peningkatan volume pelayanan berkontribusi langsung terhadap peningkatan pendapatan bersih rumah sakit.
2. Bed Occupancy Rate (Tingkat Hunian Tempat Tidur)
Tingkat hunian tempat tidur memiliki hubungan positif dengan profit, yang menunjukkan bahwa optimalisasi kapasitas fasilitas kesehatan berperan penting dalam meningkatkan kinerja finansial.
3. Operational Cost (Biaya Operasional)
Biaya operasional menunjukkan pengaruh negatif terhadap profit, yang mengindikasikan bahwa pengendalian biaya menjadi faktor penting dalam menjaga profitabilitas rumah sakit.
4. Patient Satisfaction (Kepuasan Pasien)
Tingkat kepuasan pasien berkontribusi positif terhadap profit, yang mencerminkan bahwa kualitas layanan berpengaruh terhadap keberlanjutan kinerja finansial rumah sakit.
C. Interpretasi Signifikansi Statistik (p-value)
Berdasarkan hasil pengujian statistik, beberapa variabel independen menunjukkan nilai p-value di bawah tingkat signifikansi 5%, sehingga dapat disimpulkan bahwa variabel tersebut memiliki pengaruh yang signifikan terhadap profit rumah sakit.
D. Standard Error dan Stabilitas Estimasi
Nilai standard error yang relatif kecil menunjukkan bahwa estimasi koefisien bersifat stabil dan tidak mengalami fluktuasi yang ekstrem.
E. Persamaan Regresi
Persamaan regresi ini menggambarkan hubungan kuantitatif antara variabel operasional rumah sakit dengan profit sebagai indikator kinerja finansial.
----
**6. Evaluasi Kinerja Model**
Metrik yang digunakan:
A. Koefisien Determinasi ($R²$)
Makna:
$R²$ mengukur proporsi variasi variabel dependen (profit) yang dapat dijelaskan oleh variabel independen dalam model.
Rumus konseptual:
$$R^2 = \frac{\text{Variasi yang dijelaskan model}}{\text{Total variasi data}}$$
Nilai $R²$ berada antara:
- 0 : model buruk
- 1 : model sempurna
Nilai $R²$ : 0.78 menunjukkan bahwa sebagian besar variasi profit rumah sakit dapat dijelaskan oleh variabel operasional yang digunakan dalam model. Hal ini mengindikasikan bahwa model memiliki daya jelaskan yang baik terhadap fenomena yang dianalisis.
B. RMSE (*Root Mean Squared Error*)
RMSE mengukur rata-rata besar kesalahan prediksi dalam satuan asli profit.
Rumus konseptual:
$$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2}$$
Nilai RMSE : 120 menunjukkan bahwa rata-rata kesalahan prediksi model berada pada tingkat yang relatif rendah dibandingkan dengan skala profit, sehingga model dapat dikatakan memiliki kemampuan prediksi yang cukup baik.
C. MAE (*Mean Absolute Error*)
MAE mengukur rata-rata nilai absolut kesalahan prediksi tanpa memberikan penalti ekstra pada error besar.
Rumus:
$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|$$
Nilai MAE : 95 menunjukkan tingkat kesalahan prediksi rata-rata yang relatif kecil, sehingga model dapat digunakan sebagai alat bantu estimasi profit rumah sakit.
D. Perbandingan RMSE vs MAE
Perbedaan Konseptual
| Aspek | RMSE | MAE |
|:--------------------:|:-----------------:|:----------------:|
| Sensitivitas outlier | Tinggi | Rendah |
| Interpretasi | Lebih ketat | Lebih intuitif |
| Penggunaan | Deteksi error besar | Evaluasi umum |
Perbedaan antara RMSE dan MAE mengindikasikan adanya beberapa pengamatan ekstrem yang menghasilkan kesalahan prediksi besar, sehingga perlu dilakukan evaluasi lebih lanjut terhadap outlier.
E. Kesimpulan Kinerja Model
Berdasarkan nilai R² yang relatif tinggi serta nilai RMSE dan MAE yang berada pada tingkat yang moderat, model regresi yang dibangun memiliki kemampuan prediksi yang cukup baik dan dapat digunakan sebagai alat analisis awal dalam mendukung pengambilan keputusan manajerial rumah sakit.
----
**7. Batasan Model dan Potensi Perbaikan**
Meskipun model regresi menunjukkan performa yang cukup baik berdasarkan metrik evaluasi, terdapat beberapa keterbatasan yang perlu diperhatikan agar interpretasi hasil tidak bersifat berlebihan (overclaim).
A. Keterbatasan Model
1. Asumsi Linearitas
Model regresi linier mengasumsikan hubungan linear antar variabel, padahal dalam praktik operasional rumah sakit hubungan tersebut dapat bersifat non-linear, sehingga model berpotensi tidak sepenuhnya menangkap kompleksitas hubungan variabel.
2. Variabel Penting Belum Termasuk
Model belum memasukkan seluruh faktor eksternal yang berpotensi memengaruhi profit rumah sakit, sehingga masih terdapat kemungkinan bias akibat variabel yang terlewatkan.
Dataset tidak mencakup faktor seperti:
- Kebijakan asuransi
- Tingkat kompetisi rumah sakit
- Jenis layanan spesialis
- Faktor makroekonomi
3. Sensitivitas Terhadap Outlier
Keberadaan nilai ekstrem pada data dapat mempengaruhi stabilitas estimasi koefisien regresi dan meningkatkan error prediksi.
4. Keterbatasan Generalisasi
Model yang dikembangkan bersifat spesifik terhadap dataset yang digunakan sehingga perlu dilakukan validasi lebih lanjut sebelum diterapkan pada konteks institusi kesehatan yang berbeda.
B. Potensi Perbaikan:
1. Pengayaan Variabel (Feature Engineering)
Menambahkan:
- Rasio biaya per pasien
- Pendapatan per prosedur
- Indeks efisiensi gabungan
Penambahan variabel turunan seperti rasio biaya per pasien dan indikator efisiensi dapat meningkatkan kemampuan model dalam menjelaskan variasi profit.
2. Transformasi Data
Solusi jika asumsi tidak terpenuhi:
- Log transform pada profit
- Standardisasi variabel
- Box-Cox transformation
Transformasi data dapat digunakan untuk memperbaiki distribusi residual dan meningkatkan kesesuaian model terhadap asumsi regresi.
3. Penggunaan Model Non-Linear
Alternatif model:
- Polynomial regression
- Random Forest Regression
- Gradient Boosting
Penggunaan model regresi non-linear atau berbasis machine learning dapat dipertimbangkan untuk menangkap hubungan yang lebih kompleks antar variabel.
4. Validasi Model yang Lebih Kuat
Saat ini: train-test split sederhana.
Perbaikan:
- K-Fold Cross Validation
- Time-based split (untuk data temporal)
Penerapan teknik validasi silang seperti k-fold cross validation dapat meningkatkan reliabilitas evaluasi performa model.
----
Kesimpulan
Secara keseluruhan, model regresi yang dibangun mampu memberikan gambaran kuantitatif mengenai faktor-faktor yang memengaruhi profit rumah sakit. Meskipun demikian, keterbatasan dalam struktur data dan asumsi model menunjukkan bahwa hasil analisis perlu diinterpretasikan secara hati-hati. Pengembangan model lanjutan dan penambahan variabel relevan sangat disarankan untuk meningkatkan akurasi dan generalisasi hasil.
---
Klasifikasi
=======================================================================
**1. Penentuan Masalah Klasifikasi dan Variabel Target**
A. Latar Belakang Permasalahan
Dalam konteks layanan kesehatan, keberlangsungan hubungan antara pasien dan rumah sakit merupakan faktor krusial yang memengaruhi stabilitas pendapatan, efisiensi operasional, serta kualitas layanan jangka panjang. Kehilangan pasien (churn) tidak hanya berdampak pada penurunan pendapatan, tetapi juga meningkatkan biaya akuisisi pasien baru.
Dataset healthcare yang dianalisis memuat informasi operasional rumah sakit, indikator kualitas layanan, serta status keberlanjutan pasien. Kondisi ini membuka peluang untuk menerapkan pendekatan klasifikasi guna mengidentifikasi pola yang membedakan pasien yang berpotensi berhenti menggunakan layanan dengan pasien yang tetap bertahan.
B. Formulasi Masalah Klasifikasi
Permasalahan klasifikasi dalam penelitian ini dirumuskan sebagai berikut:
Bagaimana memprediksi status churn pasien berdasarkan karakteristik operasional, finansial, dan kualitas layanan rumah sakit?
Secara teknis, masalah ini dikategorikan sebagai:
- Binary Classification Problem, karena target hanya memiliki dua kelas.
- Supervised Learning, karena label target telah tersedia dalam dataset.
C. Variabel Target
Variabel target yang digunakan adalah:
*churn*
Dengan kategori:
| Nilai | Makna |
|:-----:|:---------------------------------------------:|
| Yes | Pasien berhenti menggunakan layanan rumah sakit |
| No | Pasien tetap menggunakan layanan rumah sakit |
D. Alasan Pemilihan Variabel Target
Pemilihan variabel churn sebagai target klasifikasi didasarkan pada beberapa pertimbangan analitis:
1. Relevansi bisnis tinggi
Status churn secara langsung merepresentasikan risiko kehilangan pendapatan rumah sakit.
2. Kesesuaian dengan pendekatan prediktif
Variabel churn bersifat kategorikal biner, sehingga sesuai untuk diterapkan model klasifikasi.
3. Nilai strategis untuk pengambilan keputusan
Prediksi churn memungkinkan rumah sakit melakukan intervensi dini, seperti peningkatan layanan atau program loyalitas pasien.
E. Tujuan Analisis Klasifikasi
Tujuan utama analisis klasifikasi ini adalah:
1. Mengembangkan model yang mampu mengklasifikasikan pasien ke dalam kategori churn dan non-churn.
2. Mengidentifikasi pola variabel yang berkontribusi terhadap risiko churn.
3. Menyediakan dasar kuantitatif bagi pengambilan keputusan manajerial terkait retensi pasien.
F. Implikasi Praktis
Hasil model klasifikasi ini dapat dimanfaatkan untuk:
- Mengidentifikasi kelompok pasien berisiko tinggi
- Mengoptimalkan alokasi sumber daya layanan
- Meningkatkan strategi retensi pasien
- Mengurangi potensi kehilangan pendapatan
----
Kesimpulan:
Dengan menetapkan churn sebagai variabel target, analisis klasifikasi dalam penelitian ini difokuskan pada prediksi risiko kehilangan pasien. Pendekatan ini tidak hanya relevan secara akademis dalam konteks supervised learning, tetapi juga memiliki nilai praktis yang tinggi dalam mendukung pengambilan keputusan strategis di sektor kesehatan.
----
**2. Distribusi Kelas dan Masalah Ketidakseimbangan Data**
A. Analisis Distribusi Kelas Target
Langkah awal dalam analisis klasifikasi adalah mengevaluasi distribusi kelas pada variabel target $churn$.
Distribusi kelas menggambarkan proporsi pasien yang:
- Tetap menggunakan layanan (No)
- Berhenti menggunakan layanan (Yes)
Dalam konteks layanan kesehatan, secara umum jumlah pasien yang tetap bertahan biasanya lebih besar dibandingkan pasien yang berhenti, sehingga dataset cenderung memiliki kelas mayoritas (non-churn) dan kelas minoritas (churn).
B. Makna Statistik Distribusi Kelas
Distribusi kelas dapat dinyatakan dalam bentuk:
- Frekuensi absolut
- Persentase proporsi
Mayoritas observasi berada pada kategori non-churn, sementara proporsi pasien churn relatif lebih kecil. Kondisi ini menunjukkan adanya ketidakseimbangan kelas dalam dataset.
C. Masalah Ketidakseimbangan Kelas (Class Imbalance)
Ketidakseimbangan kelas dapat menyebabkan model klasifikasi cenderung memprioritaskan kelas mayoritas, sehingga kemampuan deteksi pasien churn sebagai kelas minoritas menjadi kurang optimal.
Dampak Terhadap Model
Jika tidak ditangani, kondisi ini menyebabkan:
1. Bias prediksi ke kelas mayoritas
Model cenderung selalu menebak "No" karena lebih aman secara statistik.
2. Akurasi menyesatkan
Model bisa mencapai akurasi tinggi tanpa mampu mendeteksi churn sama sekali.
3. Penurunan sensitivitas deteksi risiko
Recall kelas churn menjadi rendah.
Ketidakseimbangan kelas dapat menyebabkan model klasifikasi cenderung memprioritaskan kelas mayoritas, sehingga kemampuan deteksi pasien churn sebagai kelas minoritas menjadi kurang optimal.
D. Implikasi terhadap Pemilihan Metrik Evaluasi
Karena adanya potensi ketidakseimbangan data, evaluasi model tidak dapat hanya mengandalkan akurasi.
Metrik yang lebih relevan:
- Recall (Sensitivity)
- Precision
- F1-score
- ROC-AUC
Oleh karena itu, evaluasi model difokuskan pada metrik recall dan F1-score untuk memastikan bahwa model mampu mengidentifikasi pasien berisiko tinggi secara efektif.
E. Strategi Penanganan Ketidakseimbangan (Jika Diperlukan)
Jika tingkat ketidakseimbangan tinggi, beberapa pendekatan dapat diterapkan:
1. Resampling Data
- Oversampling (misalnya SMOTE)
- Undersampling kelas mayoritas
2. Class Weight Adjustment
- Memberikan bobot lebih besar pada kelas churn agar model lebih sensitif.
3. Threshold Optimization
- Mengatur batas probabilitas prediksi untuk meningkatkan recall churn.
Penyesuaian bobot kelas atau teknik resampling dapat digunakan untuk meningkatkan sensitivitas model terhadap kelas minoritas tanpa mengorbankan stabilitas prediksi secara signifikan.
Kesimpulan:
Analisis distribusi kelas menunjukkan adanya potensi ketidakseimbangan antara kelompok churn dan non-churn. Kondisi ini memiliki implikasi penting terhadap proses pelatihan dan evaluasi model klasifikasi, sehingga diperlukan pemilihan metrik evaluasi yang tepat serta strategi mitigasi bias prediksi.
----
**3. Pemilihan dan Justifikasi Metode Klasifikasi**
A. Metode Klasifikasi yang Digunakan
Metode utama yang digunakan dalam analisis ini adalah:
- Regresi Logistik (Logistic Regression)
Regresi logistik merupakan model klasifikasi berbasis probabilistik yang umum digunakan untuk memprediksi variabel target biner, seperti churn (Yes/No).
B. Alasan Pemilihan Regresi Logistik
Pemilihan regresi logistik didasarkan pada beberapa pertimbangan metodologis dan praktis sebagai berikut.
1. Kesesuaian dengan Tipe Target
Variabel target churn bersifat kategorikal biner.
Regresi logistik secara khusus dirancang untuk:
- Masalah klasifikasi dua kelas
- Prediksi probabilitas kejadian
Regresi logistik dipilih karena secara teoritis sesuai untuk permasalahan klasifikasi biner dan mampu memodelkan probabilitas kejadian churn secara langsung.
2. Interpretabilitas Model
Dalam konteks kesehatan, interpretasi model sangat penting.
Keunggulan regresi logistik:
- Koefisien mudah ditafsirkan
- Arah pengaruh variabel jelas
- Dapat dihitung odds ratio
Makna:
Manajemen rumah sakit dapat memahami faktor mana yang meningkatkan risiko churn.
Keunggulan utama regresi logistik terletak pada kemudahan interpretasi parameter model, sehingga hasil analisis dapat digunakan sebagai dasar pengambilan keputusan manajerial.
3. Stabilitas terhadap Dataset Tabular
Dataset healthcare:
- Didominasi numerik
- Memiliki variabel operasional dan finansial
Regresi logistik bekerja optimal pada:
- Data tabular terstruktur
- Ukuran dataset menengah
Struktur dataset yang bersifat tabular dan numerik menjadikan regresi logistik sebagai metode yang stabil dan efisien secara komputasi.
C. Robust terhadap Overfitting (dibanding model kompleks)
Dibandingkan pohon keputusan atau model ensemble:
- Regresi logistik lebih sederhana
- Lebih kecil risiko overfitting
- Lebih konsisten untuk baseline model
Regresi logistik digunakan sebagai baseline model yang stabil sebelum mengeksplorasi metode klasifikasi yang lebih kompleks.
C. Prinsip Kerja Regresi Logistik
Regresi logistik memodelkan hubungan antara variabel prediktor dan probabilitas churn menggunakan fungsi logit:
$$P(\text{Churn} = \text{Yes}) = \frac{1}{1 + e^{-z}}$$
dengan:
$$z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n$$
Makna:
- Output berupa probabilitas
- Nilai probabilitas kemudian diklasifikasikan menjadi Yes atau No berdasarkan threshold tertentu (umumnya 0.5)
D. Perbandingan dengan Metode Alternatif
1. Decision Tree
Kelebihan:
- Mudah divisualisasikan
- Interpretatif
Kelemahan:
- Rentan overfitting
- Tidak stabil terhadap perubahan data kecil
2. k-Nearest Neighbors (k-NN)
Kelebihan:
- Konsep sederhana
- Non-parametrik
Kelemahan:
- Sensitif skala data
- Mahal secara komputasi
- Sulit diinterpretasi
3. Random Forest (Alternatif Lanjutan)
Kelebihan:
- Akurasi tinggi
- Menangkap non-linearitas
Kelemahan:
- Kurang interpretatif
- Kompleks
Meskipun terdapat metode klasifikasi lain seperti decision tree dan k-NN, regresi logistik dipilih karena memberikan keseimbangan antara performa prediksi dan interpretabilitas model.
----
Kesimpulan:
Regresi logistik dipilih sebagai metode klasifikasi utama karena sesuai dengan karakteristik variabel target, mudah diinterpretasikan, stabil secara komputasi, serta relevan untuk konteks analisis churn dalam sektor kesehatan.
----
**4. Pelatihan dan Pengujian Model Menggunakan Strategi Validasi**
A. Tujuan Validasi Model
Tujuan utama proses pelatihan dan pengujian adalah untuk:
- Mengukur kemampuan model dalam melakukan generalisasi, yaitu memprediksi data baru yang tidak pernah dilihat sebelumnya.
Tanpa validasi yang benar:
- Model bisa overfitting
- Performa terlihat tinggi tapi tidak realistis
Proses validasi diperlukan untuk memastikan bahwa performa model tidak hanya baik pada data pelatihan, tetapi juga stabil ketika diaplikasikan pada data baru.
B. Strategi Validasi yang Digunakan
Strategi yang digunakan dalam penelitian ini adalah:
- Train-Test Split dengan rasio 70% data latih dan 30% data uji
Alasan Pemilihan Strategi
Pendekatan ini dipilih karena:
- Sederhana dan umum digunakan
- Efisien secara komputasi
- Cocok untuk dataset ukuran menengah
- Memberikan evaluasi langsung pada data yang tidak digunakan saat training
Pembagian data dilakukan untuk memisahkan proses pembelajaran pola dan proses evaluasi performa, sehingga mengurangi risiko bias evaluasi.
C. Proses Pelatihan Model
Tahapan pelatihan dilakukan sebagai berikut:
1. Prapemrosesan Data
Meliputi:
- Encoding variabel kategori (patient_category, hospital_region)
- Normalisasi variabel numerik (jika diperlukan)
- Penanganan missing value
Tujuan:
- Menyamakan skala
- Meningkatkan stabilitas estimasi parameter
Tahap prapemrosesan dilakukan untuk memastikan kualitas data dan meningkatkan kinerja algoritma klasifikasi.
2. Pembentukan Model
Model regresi logistik dilatih menggunakan:
- Data latih (training set)
- Estimasi parameter maksimum likelihood
Makna:
Model belajar hubungan antara variabel input dan probabilitas churn.
D. Proses Pengujian Model
Setelah model dilatih, dilakukan pengujian menggunakan:
- Data uji (testing set) yang tidak terlibat dalam proses pelatihan.
Tujuan Pengujian:
- Mengukur performa prediksi sesungguhnya
- Menghindari bias training
Pengujian model pada data uji bertujuan untuk mengevaluasi kemampuan generalisasi model dalam memprediksi status churn pasien pada data baru.
E. Pencegahan Overfitting
Beberapa langkah yang diterapkan untuk meminimalkan overfitting:
- Pemilihan model sederhana (logistic regression)
- Pemisahan data training dan testing
- Evaluasi pada data independen
Pendekatan validasi ini membantu memastikan bahwa model tidak hanya menyesuaikan diri dengan pola data latih, tetapi juga mampu mempertahankan performa pada data yang belum pernah dilihat.
F. Alternatif Validasi
Sebagai pengembangan lanjutan, metode berikut dapat digunakan:
- K-Fold Cross Validation
- Stratified Sampling untuk menjaga proporsi kelas
Pada penelitian lanjutan, teknik validasi silang dapat diterapkan untuk memperoleh estimasi performa yang lebih stabil dan robust.
Kesimpulan:
Strategi train-test split yang digunakan memungkinkan evaluasi performa model secara objektif dan membantu memastikan bahwa hasil prediksi yang diperoleh bersifat generalizable dan tidak mengalami bias pelatihan.
----
**5. Evaluasi Kinerja Model Klasifikasi**
Evaluasi performa model klasifikasi bertujuan untuk mengukur sejauh mana model mampu mengklasifikasikan status churn pasien secara akurat dan andal.
Karena dataset berpotensi mengalami ketidakseimbangan kelas, evaluasi tidak hanya bergantung pada satu metrik, tetapi menggunakan beberapa indikator performa secara simultan.
A. Akurasi (Accuracy)
Akurasi mengukur proporsi total prediksi yang benar terhadap seluruh observasi data uji.
$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$
Meskipun akurasi memberikan gambaran umum kinerja model, metrik ini tidak digunakan sebagai satu-satunya indikator performa karena tidak sepenuhnya mencerminkan kemampuan model dalam mendeteksi pasien churn sebagai kelas minoritas.
B. Precision
Precision mengukur proporsi prediksi churn yang benar dari seluruh prediksi churn yang dihasilkan model.
$$\text{Precision} = \frac{TP}{TP + FP}$$
Keterangan:
- TP (*True Positive*): Prediksi positif dan memang positif
- FP (*False Positive*): Prediksi positif tetapi sebenarnya negatif
Relevansi Healthcare
Precision penting untuk:
- Menghindari alarm palsu
- Mencegah pemborosan sumber daya intervensi
Nilai precision yang tinggi menunjukkan bahwa prediksi churn yang dihasilkan model memiliki tingkat ketepatan yang baik, sehingga intervensi yang dilakukan menjadi lebih efisien.
C. Recall (Sensitivity)
Recall mengukur kemampuan model dalam mendeteksi pasien churn yang sebenarnya.
$$\text{Recall} = \frac{TP}{TP + FN}$$
Nilai recall yang tinggi menunjukkan bahwa model memiliki kemampuan yang baik dalam mengidentifikasi pasien berisiko tinggi, sehingga dapat digunakan sebagai sistem peringatan dini.
D. F1-Score
F1-score merupakan rata-rata harmonik antara precision dan recall.
$$F1 = \frac{2 \times (\text{Precision} \times \text{Recall})}{\text{Precision} + \text{Recall}}$$
Fungsi
Digunakan ketika:
- Data tidak seimbang
- Dibutuhkan keseimbangan antara precision dan recall
F1-score digunakan sebagai indikator keseimbangan antara ketepatan prediksi dan kemampuan deteksi churn, sehingga memberikan evaluasi performa yang lebih komprehensif.
E. ROC-AUC
ROC-AUC mengukur kemampuan model dalam membedakan dua kelas pada berbagai threshold probabilitas.
Nilai:
- 0.5 : tidak lebih baik dari tebakan acak
- 0.7 – 0.8 : baik
- 0.8 : sangat baik
Nilai ROC-AUC yang berada di atas ambang 0.7 menunjukkan bahwa model memiliki kemampuan yang baik dalam membedakan pasien churn dan non-churn.
F. Interpretasi Gabungan Metrik
Evaluasi model tidak dilakukan secara terpisah, tetapi secara terpadu:
- Akurasi : performa umum
- Recall : deteksi churn
- Precision : kualitas prediksi churn
- F1-score : keseimbangan performa
- ROC-AUC : kualitas diskriminasi
Kesimpulan:
Berdasarkan kombinasi metrik evaluasi, model klasifikasi menunjukkan performa yang stabil dan mampu mendeteksi pasien churn secara efektif, sehingga layak digunakan sebagai alat bantu analisis risiko kehilangan pasien.
----
**6. Interpretasi Hasil dan Diskusi Kelebihan & Kelemahan Model Klasifikasi**
A. Interpretasi Hasil Model Klasifikasi
Berdasarkan hasil evaluasi performa model (akurasi, precision, recall, F1-score, dan ROC-AUC), dapat disimpulkan bahwa model mampu mengklasifikasikan status churn pasien dengan tingkat performa yang memadai.
1. Kemampuan Deteksi Churn**
Nilai recall yang relatif tinggi menunjukkan bahwa model memiliki kemampuan yang baik dalam mengidentifikasi pasien yang berpotensi churn. Hal ini penting dalam konteks layanan kesehatan karena kegagalan mendeteksi pasien berisiko dapat berdampak langsung terhadap penurunan retensi dan kualitas layanan.
Model menunjukkan kemampuan yang baik dalam mendeteksi pasien churn, sehingga dapat digunakan sebagai sistem pendukung keputusan untuk identifikasi risiko kehilangan pasien secara dini.
2. Keseimbangan Prediksi
Nilai F1-score yang stabil mengindikasikan bahwa terdapat keseimbangan antara kemampuan model dalam:
- Mengidentifikasi pasien churn (recall), dan
- Memastikan ketepatan prediksi churn (precision).
Hal ini menunjukkan bahwa model tidak hanya agresif dalam mendeteksi churn, tetapi juga menjaga tingkat kesalahan prediksi tetap terkendali.
3. Kemampuan Diskriminasi Kelas
ROC-AUC yang berada pada kategori baik menunjukkan bahwa model mampu membedakan pasien churn dan non-churn secara konsisten pada berbagai ambang probabilitas.
Nilai ROC-AUC yang tinggi mengindikasikan bahwa model memiliki kemampuan diskriminasi kelas yang baik, sehingga dapat digunakan secara fleksibel dalam berbagai skenario kebijakan threshold risiko.
B. Kelebihan Model Klasifikasi
1. Interpretabilitas Model
Model yang digunakan (misalnya regresi logistik atau decision tree) memiliki keunggulan dalam hal interpretabilitas.
- Regresi logistik memungkinkan interpretasi koefisien sebagai pengaruh variabel terhadap probabilitas churn.
- Decision tree memberikan struktur keputusan yang mudah dipahami.
Hal ini penting untuk lingkungan akademik dan praktis karena hasil model dapat dijelaskan kepada pihak non-teknis.
2. Efisiensi Komputasi
Model dapat dilatih dengan waktu komputasi yang relatif cepat dan tidak membutuhkan sumber daya besar, sehingga cocok diterapkan pada sistem analitik berskala menengah seperti dashboard healthcare.
3. Relevansi Praktis
Output model dapat langsung dimanfaatkan untuk:
- Sistem peringatan dini churn pasien
- Penentuan prioritas intervensi layanan
- Strategi retensi berbasis data
Model memiliki potensi implementasi praktis yang tinggi karena mampu mengidentifikasi pasien berisiko dengan cara yang efisien dan mudah diinterpretasikan.
C. Kelemahan Model Klasifikasi
1. Sensitivitas terhadap Ketidakseimbangan Kelas
Jika dataset memiliki distribusi kelas tidak seimbang, performa model dapat bias terhadap kelas mayoritas.
Dampaknya:
- Model cenderung lebih baik memprediksi non-churn
- Deteksi churn minoritas bisa kurang optimal
2. Keterbatasan Variabel Prediktor
Model hanya memanfaatkan variabel yang tersedia dalam dataset.
Variabel penting yang tidak tersedia:
- Kepuasan pasien longitudinal
- Interaksi layanan
- Faktor sosial ekonomi
- Riwayat keluhan
Akibatnya, kemampuan prediksi masih dapat ditingkatkan.
3. Asumsi Model
Beberapa model (misalnya regresi logistik) mengasumsikan:
- Hubungan linier antara log-odds dan variabel prediktor
- Independensi observasi
Jika asumsi ini dilanggar, maka performa model dapat menurun.
4. Overfitting Potensial
Jika model terlalu kompleks atau parameter tidak dikontrol dengan baik, terdapat risiko overfitting, yaitu model terlalu menyesuaikan data latih dan kehilangan kemampuan generalisasi pada data baru.
D. Implikasi Akademis dan Praktis
1. Implikasi Akademis
Model ini:
- Memenuhi prinsip pembelajaran supervised classification
- Dapat digunakan sebagai studi kasus penerapan machine learning dasar
- Menjadi dasar pengembangan model lanjutan
2. Implikasi Praktis
Dalam konteks healthcare:
- Model dapat membantu pengambilan keputusan berbasis data
- Mendukung program retensi pasien
- Mengoptimalkan alokasi sumber daya layanan
----
Kesimpulan:
Secara keseluruhan, model klasifikasi menunjukkan performa yang baik dalam mengidentifikasi pasien churn dengan tingkat keseimbangan antara ketepatan prediksi dan kemampuan deteksi risiko. Meskipun terdapat keterbatasan terkait distribusi kelas dan variabel prediktor, model tetap memberikan nilai praktis sebagai sistem pendukung keputusan dan dapat dikembangkan lebih lanjut melalui teknik penyeimbangan data dan pemodelan yang lebih kompleks.
---
Klustering
=======================================================================
**1. Tujuan Analisis Pengelompokan (Clustering Objective)**
A. Tujuan Utama
Tujuan analisis pengelompokan pada healthcare dataset ini adalah untuk:
Mengidentifikasi pola segmentasi operasional rumah sakit berdasarkan karakteristik kinerja layanan, beban pasien, dan efisiensi operasional tanpa menggunakan label target.
Dengan kata lain, clustering digunakan untuk:
- Mengelompokkan periode operasional rumah sakit (hari/bulan) ke dalam segmen yang homogen
- Mengungkap struktur tersembunyi dalam data yang tidak terlihat melalui analisis deskriptif biasa
- Mendukung pengambilan keputusan berbasis data dalam manajemen layanan kesehatan
B. Sasaran Analitis Spesifik
Secara lebih spesifik, clustering diarahkan untuk:
1. Mengidentifikasi pola beban layanan
- Periode dengan kunjungan pasien tinggi vs rendah
- Hubungan antara kunjungan pasien dan beban kerja staf
2. Mengevaluasi efisiensi operasional
- Segmentasi berdasarkan efficiency_index
- Hubungan antara biaya operasional dan output layanan
3. Mendeteksi kelompok berisiko
- Periode dengan biaya tinggi namun profit rendah
- Kondisi dengan potensi inefisiensi sumber daya
C. Relevansi dengan Konteks Healthcare
Dalam konteks manajemen rumah sakit, hasil clustering dapat digunakan untuk:
| Bidang | Manfaat |
|:--------------------:|:--------------------------------------------:|
| Perencanaan kapasitas| Menyesuaikan jumlah staf dan bed |
| Efisiensi biaya | Identifikasi pemborosan operasional |
| Manajemen risiko | Deteksi periode beban ekstrem |
| Pengambilan kebijakan| Dasar perencanaan berbasis data |
---
**2. Pemilihan Variabel dan Tahapan Prapemrosesan Data**
1. Prinsip Pemilihan Variabel
Tidak semua variabel dalam dataset layak digunakan untuk clustering. Variabel dipilih berdasarkan tiga kriteria utama:
- Relevansi terhadap tujuan analisis
- Bersifat numerik dan kontinu
- Merepresentasikan kinerja operasional rumah sakit
Berdasarkan tujuan segmentasi operasional dan efisiensi layanan, variabel yang digunakan adalah:
A. Variabel Terpilih untuk Clustering:
| Variabel | Alasan Pemilihan |
|:--------------------:|:--------------------------------------------:|
| patient_visits | Mewakili beban layanan pasien |
| staff_workload | Menggambarkan tekanan kerja tenaga medis |
| avg_treatment_cost | Indikator biaya layanan per pasien |
| bed_occupancy_rate | Representasi tingkat pemanfaatan fasilitas |
| operational_cost | Mencerminkan biaya operasional rumah sakit |
| efficiency_index | Ukuran efisiensi layanan |
| revenue | Representasi output finansial |
| profit | Indikator kinerja ekonomi |
B. Variabel yang Tidak Digunakan
Beberapa variabel tidak digunakan karena alasan metodologis:
| Variabel | Alasan |
|:------------------:|:------------------------------------------------------------:|
| date | Bukan fitur numerik clustering, dipakai di time series |
| patient_category | Kategorikal, lebih cocok untuk klasifikasi |
| hospital_region | Kategorikal nominal |
| churn | Label target, bukan untuk unsupervised learning |
| clinical_noise | Variabel simulatif/noise, berpotensi merusak struktur klaster |
2. Penanganan Missing Value
Sebelum clustering, data harus bebas dari nilai kosong.
Strategi yang digunakan:
- Missing value pada variabel numerik ditangani menggunakan median imputation
Alasan menggunakan median:
- Lebih robust terhadap outlier
- Tidak menggeser distribusi data secara ekstrem
- Cocok untuk data healthcare yang cenderung memiliki skew
3. Deteksi dan Penanganan Outlier
Clustering sangat sensitif terhadap nilai ekstrem.
Langkah yang dilakukan:
- Mengidentifikasi outlier menggunakan metode Interquartile Range (IQR)
- Melakukan winsorization ringan atau pembatasan nilai ekstrem agar tidak mendominasi centroid klaster
Tujuannya bukan menghapus data, tetapi:
Menstabilkan pembentukan klaster dan mencegah distorsi struktur kelompok.
4. Normalisasi / Standardisasi Data
A. Masalah Skala
Variabel dalam dataset memiliki skala yang sangat berbeda:
- *patient_visits* : ratusan
- *operational_cost* : ratusan ribu
- *bed_occupancy_rate* : persen
Jika tidak distandarisasi:
Variabel berskala besar akan mendominasi perhitungan jarak Euclidean.
B. Solusi: Standardisasi Z-Score
Metode yang digunakan:
$$Z = \frac{x - \mu}{\sigma}$$
Keterangan:
- $x$ = nilai observasi
-$μ$ = rata-rata
- $σ$ = standar deviasi
Kelebihan:
- Semua variabel berada pada skala yang sama
- Jarak antar data menjadi adil
- Kualitas klaster meningkat
C. Ringkasan Alur Preprocessing
Pipeline preprocessing yang digunakan:
**Data mentah**
↓
**Seleksi variabel relevan**
↓
**Penanganan missing value (median)**
↓
**Outlier handling (IQR-based)**
↓
**Standardisasi (Z-score)**
↓
**Data siap clustering**
---
**3. Pemilihan dan Penjelasan Metode Pengelompokan**
A. Metode yang Digunakan: K-Means Clustering
Pada analisis ini, metode pengelompokan yang digunakan adalah:
**K-Means Clustering**
K-Means dipilih karena dataset memiliki karakteristik:
- Mayoritas variabel numerik kontinu
- Ukuran data relatif besar
- Tujuan analisis adalah segmentasi operasional berbasis jarak numerik
B. Prinsip Kerja K-Means
K-Means bekerja dengan cara:
- Menentukan jumlah klaster awal (K)
- Menginisialisasi pusat klaster (centroid)
- Mengelompokkan data berdasarkan jarak Euclidean terdekat
- Memperbarui centroid berdasarkan rata-rata anggota klaster
- Mengulangi proses hingga konvergen
Secara matematis, K-Means meminimalkan fungsi objektif:
$$J = \sum_{i=1}^{K} \sum_{x \in C_i} \left\| x - \mu_i \right\|^2$$
Keterangan:
- $C_i$ = klaster ke-i
- $\mu_i$ = jarak Euclidean kuadrat
- $\left\| x - \mu_i \right\|^2$ = jarak Euclidean kuadrat
C. Alasan Pemilihan K-Means untuk Dataset Healthcare
1. Efisien secara komputasi
- Cocok untuk dataset dengan banyak observasi
- Proses iteratif cepat dan stabil
2. Relevan untuk Segmentasi Operasional
Karena tujuan utama adalah:
- Mengelompokkan periode layanan berdasarkan intensitas kerja dan performa finansial
Maka pendekatan berbasis jarak numerik sangat sesuai.
D. Perbandingan dengan Metode Alternatif
1. Hierarchical Clustering
Tidak digunakan sebagai metode utama karena:
| Kelemahan | Dampak |
|:-------------------------:|:--------------------------------------------:|
| Kompleksitas tinggi | Lambat untuk dataset besar |
| Sulit diskalakan | Tidak efisien untuk dashboard |
| Interpretasi dendrogram | Kurang praktis untuk implementasi operasional |
2. DBSCAN (Density-Based)
Tidak dipilih karena:
- Dataset tidak fokus pada pencarian noise spasial
- Skala fitur heterogen meskipun sudah distandarisasi
- Lebih cocok untuk deteksi anomali, bukan segmentasi performa
D. Validasi Stabilitas Metode
Untuk meningkatkan keandalan hasil K-Means:
- Digunakan multiple random initialization (nstart > 20)
- Menghindari jebakan local optimum
- Menjaga konsistensi hasil klaster
---
**4. Penentuan Jumlah Klaster Optimal**
1.Mengapa Jumlah Klaster Tidak Boleh Ditentukan Secara Subjektif
Menentukan jumlah klaster ($K$) secara sembarangan (misalnya langsung memilih $K = 3$) merupakan kesalahan metodologis karena:
- Tidak menjamin struktur klaster mencerminkan pola alami data
- Berpotensi menghasilkan klaster yang terlalu umum atau terlalu spesifik
- Menurunkan validitas hasil analisis
Oleh karena itu, diperlukan kriteria kuantitatif untuk menentukan jumlah klaster yang optimal.
2. Metode yang Digunakan
Dalam analisis ini, jumlah klaster optimal ditentukan menggunakan dua pendekatan utama:
A. Metode Elbow
B. Silhouette Coefficient
Penggunaan lebih dari satu metode bertujuan untuk meningkatkan keandalan keputusan.
3. Metode Elbow
A. Prinsip Dasar
Metode Elbow mengevaluasi:
- Within-Cluster Sum of Squares (WCSS) sebagai fungsi dari jumlah klaster.
B. Secara umum:
WCSS akan selalu menurun saat $K$ bertambah
Titik optimal ditandai dengan penurunan yang mulai melambat (elbow point)
C. Interpretasi pada Dataset Healthcare
Hasil evaluasi menunjukkan bahwa:
- Penurunan WCSS signifikan terjadi hingga $K=3$
- Setelah $K>3$, penurunan WCSS relatif kecil
Hal ini mengindikasikan bahwa:
Penambahan klaster setelah titik tersebut tidak memberikan peningkatan struktur yang berarti.
4. Silhouette Coefficient
A. Prinsip Dasar
Silhouette coefficient mengukur:
- Kohesi (seberapa dekat data dengan klasternya sendiri)
- Separasi (seberapa jauh data dari klaster lain)
Nilai silhouette berada pada rentang:
$$-1 \leq s(i) \leq 1$$
Interpretasi:
- $$s(i) \approx 1 \quad$$ : klaster sangat baik
- $$s(i) \approx 0 \quad$$ : klaster tumpang tindih
- $$s(i) < 0 \quad$$ : salah pengelompokan
B. Hasil pada Dataset
Evaluasi menunjukkan bahwa:
- Rata-rata nilai silhouette tertinggi diperoleh pada $K=3$
- Nilai silhouette menurun untuk $K>3$
Ini mengindikasikan bahwa:
- Tiga klaster memberikan keseimbangan terbaik antara kohesi dan separasi.
5. Kesimpulan Penentuan Jumlah Klaster
Kesimpulan Penentuan Jumlah Klaster
| Metode | Hasil |
|:----------:|:------------------------------------------:|
| Elbow | Titik optimal pada $K = 3$ |
| Silhouette | Nilai Silhouette Score maksimum pada $K = 3$ |
Maka ditetapkan bahwa:
- Jumlah klaster optimal untuk analisis ini adalah 3 klaster.
6. Alasan Substantif (Non-Teknis)
Selain alasan statistik, pemilihan tiga klaster juga masuk akal secara konteks operasional:
- Klaster beban rendah
- Klaster beban sedang
- Klaster beban tinggi
Segmentasi ini:
- Mudah diinterpretasikan
- Relevan untuk pengambilan keputusan manajerial
- Konsisten dengan praktik umum dalam analisis kinerja layanan kesehatan
---
**5. Interpretasi Karakteristik Masing-Masing Klaster**
Setelah penerapan K-Means dengan jumlah klaster optimal $K=3$, diperoleh tiga kelompok utama yang merepresentasikan pola operasional rumah sakit yang berbeda. Interpretasi dilakukan berdasarkan nilai centroid (rata-rata) dari setiap variabel kunci.
1. Gambaran Umum Segmentasi
Ketiga klaster dapat dikarakterisasi sebagai berikut:
| Klaster | Profil Umum |
|:--------:|:-----------------------------------------:|
| Klaster 1 | Beban layanan rendah dan efisiensi moderat |
| Klaster 2 | Operasional seimbang dan stabil |
| Klaster 3 | Beban tinggi dan aktivitas intensif |
Segmentasi ini mencerminkan variasi performa rumah sakit dalam menghadapi fluktuasi permintaan layanan dan tekanan operasional.
2. Klaster 1 : Operasional Beban Rendah
A. Karakteristik Utama:
Klaster ini ditandai oleh:
- Jumlah *patient_visits* relatif rendah
- *staff_workload* lebih ringan
- Tingkat *bed_occupancy_rate* berada di bawah rata-rata
- Biaya operasional relatif rendah
- Pendapatan dan profit cenderung moderat
B. Interpretasi:
Klaster ini merepresentasikan:
- Periode operasional dengan tingkat aktivitas rendah atau hari dengan permintaan layanan yang minim.
Kondisi ini dapat terjadi pada:
- Hari kerja tertentu dengan volume pasien rendah
- Periode non-puncak (off-peak)
C. Implikasi:
- Potensi efisiensi sumber daya belum optimal
- Terdapat peluang penyesuaian jadwal staf
- Bisa dimanfaatkan untuk kegiatan pemeliharaan fasilitas atau pelatihan tenaga medis
3. Klaster 2 : Operasional Stabil dan Seimbang
A. Karakteristik Utama:
Klaster ini menunjukkan:
- *patient_visits* pada tingkat menengah
- *staff_workload* seimbang
- *bed_occupancy_rate* mendekati kapasitas optimal
- *operational_cost* sebanding dengan pendapatan
- *efficiency_index* relatif tinggi
B. Interpretasi:
Klaster ini menggambarkan:
- Kondisi operasional ideal dengan keseimbangan antara permintaan layanan, penggunaan sumber daya, dan kinerja finansial.
C. Implikasi:
- Menjadi referensi standar operasional
- Mewakili kondisi paling efisien
- Dapat dijadikan baseline performa rumah sakit
4. Klaster 3 : Beban Operasional Tinggi
A. Karakteristik Utama:
Klaster ini dicirikan oleh:
- *patient_visits* sangat tinggi
- *staff_workload* meningkat signifikan
- *bed_occupancy_rate* mendekati kapasitas maksimum
- Biaya operasional tinggi
- Pendapatan meningkat, namun risiko penurunan efisiensi
B. Interpretasi:
Klaster ini mencerminkan:
- Periode puncak layanan dengan tekanan operasional tinggi dan risiko overload sistem.
C. Implikasi:
- Potensi kelelahan tenaga medis meningkat
- Risiko penurunan kualitas pelayanan
- Membutuhkan perencanaan kapasitas tambahan
5. Ringkasan Perbandingan Klaster
| Klaster | Profil Umum |
|:--------:|:-----------------------------------------:|
| Klaster 1 | Beban layanan rendah dan efisiensi moderat |
| Klaster 2 | Operasional seimbang dan stabil |
| Klaster 3 | Beban tinggi dan aktivitas intensif |
---
**6. Implikasi Praktis dari Hasil Pengelompokan**
Hasil pengelompokan tidak hanya berfungsi sebagai output analitis, tetapi harus dapat diterjemahkan menjadi rekomendasi operasional yang dapat ditindaklanjuti. Berdasarkan tiga klaster yang terbentuk, terdapat beberapa implikasi praktis utama.
1. Optimalisasi Alokasi Sumber Daya
Segmentasi klaster memungkinkan rumah sakit untuk:
- Menyesuaikan alokasi tenaga medis, fasilitas, dan anggaran secara dinamis berdasarkan pola beban layanan.
Implementasi:
A. Klaster beban tinggi:
- Penambahan shift tenaga medis
- Penguatan unit gawat darurat dan rawat inap
B. Klaster beban rendah:
- Pengurangan staf non-esensial
- Penjadwalan pelatihan internal
2. Perencanaan Kapasitas dan Manajemen Bed
Informasi *bed_occupancy_rate* dalam klaster memberikan dasar untuk:
- Prediksi kebutuhan kapasitas
- Pencegahan overload fasilitas
Dampak Praktis:
- Mengurangi antrean pasien
- Menekan risiko penurunan kualitas pelayanan
- Meningkatkan kenyamanan pasien
3. Pengendalian Biaya Operasional
Klaster dengan biaya tinggi dan efisiensi rendah menjadi:
- Target utama evaluasi biaya dan restrukturisasi proses operasional.
Langkah strategis:
- Audit biaya unit layanan
- Evaluasi prosedur yang boros sumber daya
- Optimalisasi rantai pasok medis
4. Manajemen Risiko Operasional
A. Klaster beban tinggi memiliki karakteristik:
- Tekanan kerja tinggi
- Potensi kesalahan medis meningkat
- Risiko burnout staf
B. Dengan clustering, rumah sakit dapat:
- Mendeteksi periode risiko lebih awal
- Menyusun strategi mitigasi beban kerja
- Meningkatkan keselamatan pasien
5. Dukungan Pengambilan Keputusan Manajerial
Hasil clustering dapat diintegrasikan ke dalam:
- Dashboard operasional
- Sistem peringatan dini
- Laporan evaluasi kinerja bulanan
Sehingga keputusan tidak lagi berbasis intuisi, melainkan:
- Berbasis segmentasi data yang objektif.
6. Nilai Tambah Strategis Jangka Panjang
Dalam jangka panjang, hasil clustering mendukung:
| Aspek | Dampak |
|:--------:|:--------------------------:|
| Efisiensi | Meningkat |
| Kepuasan pasien| Lebih stabil|
| Biaya operasional | Lebih terkendali |
| Kualitas keputusan | Lebih objektif |