Members

Row

Dadan Ramdan Hidayat


Member

Full Name :

  • Dadan Ramdan Hidayat (52240028)

  • Nova Sitorus (52240023)

Study Program : Sains Data


Nova Sitorus


Dataset

Table

EDA

## Column

Line Chartr

Boxplot

Scatter plot

Bubble Chart

Bar Chart

Regresi

## Column

Chart

Chart 2

Chart 3

Klasifikasi

## Column

Chart 1

Chart 2

Chart 3

Clustering

## Column

Chart1

Chart 2

Time Series

## Column

Chart 1


Insights

1. PEMAHAMAN DATASET

1.1 Konteks Dataset dan Tujuan Analisis

Dataset yang digunakan merupakan data operasional dan finansial rumah sakit yang dicatat secara harian dalam rentang waktu yang panjang, yaitu dari awal tahun 2010 hingga tahun 2023, dengan total 4.880 observasi. Data ini merepresentasikan aktivitas layanan kesehatan, efisiensi operasional, serta kinerja keuangan rumah sakit dari waktu ke waktu.

Dataset mencakup informasi mengenai kunjungan pasien, beban kerja staf, intensitas perawatan, biaya operasional, pendapatan, profit, tingkat kepuasan pasien, hingga karakteristik pasien dan wilayah rumah sakit. Dengan struktur waktu yang jelas, dataset ini sangat relevan untuk analisis deret waktu serta pemodelan prediktif.

Tujuan utama dari analisis ini adalah untuk:


1.2 Struktur Data dan Jenis Variabel

Dataset memiliki struktur time series harian, di mana setiap baris data merepresentasikan satu hari observasi yang ditandai oleh variabel tanggal. Struktur ini memungkinkan analisis dinamika jangka pendek maupun jangka panjang.

Variabel utama dalam dataset meliputi:

Sebagian besar variabel numerik memiliki skala nilai yang sangat besar, sehingga memerlukan perhatian khusus dalam analisis distribusi dan pemodelan statistik.


1.3 Statistik Deskriptif Utama

Hasil statistik deskriptif menunjukkan bahwa dataset memiliki variasi nilai yang sangat besar pada hampir seluruh variabel numerik. Variabel seperti jumlah kunjungan pasien, biaya perawatan, biaya operasional, pendapatan, dan profit memiliki rentang nilai yang lebar dengan selisih signifikan antara nilai minimum dan maksimum.

Distribusi sebagian besar variabel finansial cenderung tidak simetris dan skewed ke kanan, yang ditunjukkan oleh perbedaan yang cukup besar antara nilai rata-rata dan median. Kondisi ini mengindikasikan bahwa nilai ekstrem memiliki pengaruh kuat terhadap rata-rata, sehingga median menjadi ukuran yang lebih representatif untuk menggambarkan kecenderungan pusat data.

Selain itu, variabel clinical_noise memiliki nilai positif dan negatif dengan rentang yang sangat luas, yang menunjukkan adanya fluktuasi atau ketidakpastian klinis yang tinggi dalam sistem layanan rumah sakit.


1.4 Missing Values, Outliers, dan Distribusi Data

Missing Values:

Outliers:

Distribusi Data:


2. EDA

Visualisasi Data

Sebagai bagian dari Exploratory Data Analysis, digunakan lima visualisasi utama untuk memahami karakteristik data, pola hubungan antar variabel, serta dinamika kinerja keuangan dan layanan rumah sakit dari waktu ke waktu.

2.1 Line Chart – Tren Profit Triwulanan

Visualisasi tren profit triwulanan menunjukkan bahwa profit rumah sakit mengalami fluktuasi yang cukup signifikan sepanjang periode pengamatan. Pada periode awal, profit berada pada tingkat relatif tinggi, namun secara umum menunjukkan kecenderungan menurun pada periode selanjutnya. Pola ini mengindikasikan adanya tekanan terhadap kinerja keuangan rumah sakit dalam jangka panjang. Fluktuasi antar kuartal menunjukkan kemungkinan pengaruh faktor musiman, perubahan kebijakan operasional, atau dinamika biaya dan permintaan layanan. Tren yang tidak stabil ini juga mengindikasikan bahwa data profit bersifat tidak stasioner, sehingga memerlukan pendekatan khusus pada analisis deret waktu.

2.2 Boxplot – Distribusi Jumlah Kunjungan Pasien per Kuartal

Visualisasi distribusi jumlah kunjungan pasien per kuartal menunjukkan bahwa median kunjungan pasien relatif konsisten antar periode. Namun, lebar distribusi yang bervariasi mengindikasikan adanya perbedaan tingkat variasi jumlah pasien pada setiap kuartal. Selain itu, keberadaan nilai ekstrem menunjukkan adanya lonjakan atau penurunan jumlah pasien yang tidak biasa pada periode tertentu. Pola ini mencerminkan bahwa volume pasien bersifat dinamis dan dipengaruhi oleh faktor eksternal seperti kondisi kesehatan masyarakat, kebijakan layanan, atau kejadian khusus tertentu.

2.3 Bubble Scatter Plot – Hubungan Kunjungan Pasien dan Biaya Rata-rata Perawatan

Visualisasi hubungan antara jumlah kunjungan pasien dan biaya rata-rata perawatan menunjukkan bahwa peningkatan volume pasien tidak selalu diikuti oleh peningkatan biaya perawatan rata-rata. Sebaran titik yang cukup luas mengindikasikan adanya variasi efisiensi biaya antar periode. Ukuran gelembung yang merepresentasikan profit menunjukkan bahwa profit tertinggi cenderung dihasilkan pada kombinasi jumlah pasien yang tinggi dengan biaya perawatan yang relatif moderat. Pola ini menegaskan bahwa efisiensi biaya per pasien memiliki peran penting dalam pencapaian profit rumah sakit.

2.4 Scatter Plot – Hubungan Biaya Operasional dan Profit

Scatter plot antara biaya operasional dan profit menunjukkan bahwa hubungan kedua variabel tersebut tidak bersifat linier. Pada beberapa periode, biaya operasional yang tinggi tidak diikuti oleh peningkatan profit yang sebanding, yang mengindikasikan adanya potensi inefisiensi operasional. Sebaliknya, terdapat periode di mana profit relatif tinggi dapat dicapai dengan biaya operasional yang lebih terkendali. Pola ini menunjukkan bahwa pengelolaan biaya yang efektif lebih berpengaruh terhadap profit dibandingkan sekadar peningkatan pengeluaran operasional.

2.5 Bar Chart – Rata-rata Profit Berdasarkan Kategori Pasien per Kuartal

Visualisasi rata-rata profit berdasarkan kategori pasien menunjukkan perbedaan kontribusi profit yang cukup jelas antar kategori risiko. Pasien dengan kategori risiko tinggi cenderung memberikan rata-rata profit yang lebih besar dibandingkan kategori risiko menengah dan rendah, meskipun disertai variasi yang lebih tinggi antar kuartal. Pasien risiko menengah menunjukkan kontribusi profit yang relatif stabil, sedangkan pasien risiko rendah memberikan profit yang lebih kecil namun konsisten. Pola ini mengindikasikan bahwa komposisi kategori pasien berperan penting dalam menentukan kinerja keuangan rumah sakit.

Kesimpulan EDA

Secara keseluruhan, hasil Exploratory Data Analysis menunjukkan bahwa data rumah sakit memiliki karakteristik yang kompleks, ditandai dengan fluktuasi profit yang signifikan, variasi jumlah kunjungan pasien, serta hubungan yang tidak linier antara biaya, volume layanan, dan profit. Temuan ini menegaskan bahwa analisis lanjutan seperti regresi, klasifikasi, clustering, dan peramalan deret waktu perlu mempertimbangkan aspek efisiensi biaya, dinamika waktu, serta heterogenitas kategori pasien agar menghasilkan model yang lebih akurat dan relevan secara kontekstual.


3. Relationship and Pattern Analysis

3.1 Analisis Hubungan Antar Variabel Utama

Berdasarkan visual eksplorasi hubungan antar variabel operasional dan finansial rumah sakit, terlihat bahwa profit tidak semata-mata ditentukan oleh satu variabel tunggal, melainkan oleh kombinasi antara intensitas layanan dan efisiensi biaya. Variabel average treatment cost dan operational cost menunjukkan hubungan yang relatif kuat terhadap profit, tercermin dari sebaran data yang mengikuti arah tertentu pada grafik dua dimensi.

Namun, hubungan antara patient visits dan profit terlihat tidak linear dan terfragmentasi. Pada grafik sebaran, terdapat area dengan kunjungan pasien tinggi tetapi profit relatif rendah. Pola ini mengindikasikan bahwa volume pasien yang besar tanpa pengendalian biaya dan efisiensi operasional justru dapat menekan margin keuntungan, terutama ketika biaya perawatan dan biaya operasional meningkat secara tidak proporsional.

Temuan ini menegaskan bahwa profitabilitas rumah sakit lebih dipengaruhi oleh kualitas dan efisiensi layanan dibandingkan sekadar kuantitas pasien.


3.2 Analisis Regresi Eksploratif

Hasil regresi linear eksploratif memperkuat temuan visual, di mana avg_treatment_cost muncul sebagai variabel dengan pengaruh positif paling besar terhadap profit. Hal ini menunjukkan bahwa peningkatan pendapatan per layanan memiliki kontribusi signifikan terhadap kinerja finansial rumah sakit.

Sebaliknya, patient_visits memiliki koefisien negatif, yang sejalan dengan pola sebaran data pada grafik clustering, di mana kelompok dengan kunjungan pasien tinggi tidak selalu berada pada area profit tinggi. Variabel efficiency_index dan bed_occupancy_rate berperan sebagai faktor penguat yang menstabilkan profit melalui pemanfaatan sumber daya yang lebih optimal.

Dengan demikian, regresi berfungsi sebagai alat eksploratif untuk memahami arah hubungan, bukan sebagai model prediktif final.


3.3 Identifikasi Permasalahan Data

Visual actual vs predicted dan pola residual menunjukkan beberapa permasalahan data yang signifikan, yaitu:

  1. Non-linearitas, terlihat dari penyebaran titik yang tidak mengikuti pola garis lurus secara konsisten.
  2. Heteroskedastisitas, di mana varians error meningkat pada level profit tertentu, khususnya pada nilai ekstrem.
  3. Struktur klaster tersembunyi, yang mengindikasikan bahwa data terdiri dari beberapa sub-populasi dengan karakteristik berbeda.

Kondisi ini mengindikasikan bahwa asumsi regresi linear klasik tidak sepenuhnya terpenuhi.


3.4 Implikasi terhadap Pemilihan Model

Keberadaan pola non-linear dan segmentasi alami dalam data menjadi dasar penggunaan metode lanjutan seperti clustering, klasifikasi, dan time series analysis. Regresi linear digunakan sebagai baseline interpretatif, sementara metode lain dipilih untuk menangkap dinamika dan heterogenitas data yang lebih kompleks.


4. Advanced Analysis

4.1 Alasan Pemilihan Metode Analisis Lanjutan

Dataset memiliki karakteristik multidimensi, mencakup:

Oleh karena itu, pendekatan analisis lanjutan dipilih untuk memperoleh pemahaman yang lebih komprehensif dan kontekstual.


4.2 Time Series Analysis

Berdasarkan visual komponen deret waktu dan perbandingan forecast, profit menunjukkan tren jangka panjang yang relatif stabil namun fluktuatif, dengan variasi yang konsisten sepanjang waktu. Komponen musiman terlihat berulang, meskipun amplitudonya relatif kecil dibandingkan fluktuasi noise harian.

Forecast menggunakan ARIMA dan ETS menunjukkan bahwa arah profit ke depan cenderung mengikuti tren historis tanpa lonjakan ekstrem. Namun, interval kepercayaan yang semakin melebar pada horizon prediksi mengindikasikan meningkatnya ketidakpastian seiring waktu.

Hal ini menunjukkan bahwa profit rumah sakit dipengaruhi oleh faktor eksternal yang tidak sepenuhnya tercapture dalam data, sehingga prediksi jangka panjang harus ditafsirkan secara hati-hati.


4.3 Clustering atau Segmentasi

Hasil clustering dua dimensi dan tiga dimensi menunjukkan bahwa data secara alami terbagi ke dalam tiga klaster utama dengan karakteristik yang berbeda:

  1. Klaster biaya tinggi dan profit tinggi, yang mencerminkan periode atau unit dengan layanan intensif dan margin yang baik.
  2. Klaster efisiensi optimal, ditandai dengan biaya moderat dan profit yang stabil.
  3. Klaster tekanan biaya, di mana biaya relatif tinggi tidak diimbangi oleh profit yang sepadan.

Pemisahan klaster terlihat jelas pada visual 3D, yang menunjukkan bahwa kombinasi patient visits, average treatment cost, dan operational cost menciptakan struktur segmentasi yang tidak dapat ditangkap oleh analisis dua variabel saja.

Segmentasi ini mengindikasikan bahwa rumah sakit beroperasi dalam beberapa rezim operasional yang berbeda, bukan dalam satu pola homogen.


4.4 Classification atau Risk Analysis

Model klasifikasi churn menghasilkan ROC curve dengan AUC sekitar 0,65, yang menunjukkan kemampuan diskriminasi model pada tingkat moderat. Visual ROC memperlihatkan bahwa kurva berada di atas garis diagonal, namun tidak jauh, mengindikasikan adanya keterbatasan informasi prediktif dalam variabel yang digunakan.

Hal ini menunjukkan bahwa churn pasien kemungkinan besar dipengaruhi oleh faktor non-finansial seperti kualitas layanan klinis, pengalaman pasien, dan faktor eksternal lainnya.


5. Analytical and Predictive Modeling

5.1 Tujuan Pemodelan

Tujuan utama pemodelan adalah:


5.2 Pemilihan Model dan Asumsi

Regresi linear digunakan sebagai baseline untuk memahami arah dan kontribusi variabel. Model klasifikasi probabilistik digunakan untuk churn karena target bersifat biner. Asumsi dasar seperti independensi observasi dan hubungan monotonic dipertimbangkan, meskipun tidak seluruhnya terpenuhi secara sempurna.


5.3 Evaluasi Performa Model

Model regresi menunjukkan kemampuan prediksi yang cukup baik pada rentang nilai tertentu, namun cenderung kurang akurat pada nilai profit ekstrem. Model klasifikasi menghasilkan AUC yang moderat, menandakan bahwa model mampu membedakan kelas churn dan non-churn, namun masih memiliki tingkat kesalahan yang signifikan.


5.4 Keterbatasan Model

Keterbatasan utama model meliputi:


5.5 Potensi Pengembangan Model

Pengembangan lanjutan dapat dilakukan dengan:


6. Insights, Conclusions, and Recommendations

6.1 Ringkasan Temuan Utama

Visualisasi menunjukkan bahwa profit rumah sakit lebih ditentukan oleh struktur biaya dan efisiensi layanan daripada volume pasien semata. Pola operasional bersifat tersegmentasi dan dinamis dari waktu ke waktu.

6.2 Data-Driven Insights

6.3 Rekomendasi