Στοιχεία για το dataset


Περιγραφή Αρχικού dataset
Για περιγραφή του αρχικού dataset πατήστε εδώ.


Προεπεξεργασία και περιγραφή dataset ΧΩΡΙΣ το Βάρος(Weight)
Για την προεπεξεργασία και περιγραφή του dataset ΧΩΡΙΣ το Βάρος(Weight) πατήστε εδώ.


Επεξεργασία dataset


Σε αυτήν την εκδοχή του dataset θα κρατήσουμε το βάρος(Weight) και θα αφαιρέσουμε τις καταχωρήσεις/σειρές με missing values από όλες τις μεταβλητές. Οπότε:


Αφαίρεση Μεταβλητών και καταχωρήσεων/σειρών

  1. Αφαίρεση Μεταβλητών: encounter_id και payer_code. Έμειναν 48 μεταβλητές.
  2. Αφαίρεση όλων των καταχωρήσεων/σειρών που περιέχουν τουλάχιστον μία missing value(ΝΑ). Έμειναν 1556 καταχωρήσεις/σειρές.
  3. Αφαίρεση ανά μεταβλητή όλων των καταχωρήσεων/σειρών που περιέχουν τιμές “NULL” ή “Not Available”. Έμειναν 1254 καταχωρήσεις/σειρές.

Επομένως καταλήγουμε(προς το παρόν) στο dataset με 48 μεταβλητές(47 + 1 target) και 1254 παρατηρήσεις/σειρές.


Missing και Unique Values ανά μεταβλητή



Μεταβλητές που θέλουν εμβάθυνση


admission_type_id (3 unique values)



discharge_disposition_id (9 unique values)

όπου: SNF: Skilled Nursing Facility, ICF: Intermediate Care Facility, AMA: Against Medical Advice


admission_source_id (5 unique values)



medical_specialty (8 unique values)



readmitted (TARGET - 3 unique values)


Στις παραπάνω μεταβλητές πιθανόν να χρειαστεί επεξεργασία ή/και ομαδοποίηση.


Επίσης:

  • Οι κατηγορικές μεταβλητές diag_1, diag_2 και diag_3 αφορούν διαγνώσεις και έχουν τουλάχιστον 200 unique_values η κάθε μία.

  • Οι κατηγορικές μεταβλητές max_glu_serum, chlorpropamide, acetohexamide, tolbutamide, miglitol, troglitazone, tolazamide, examide, citoglipton, glyburide.metformin, glipizide.metformin, glimepiride.pioglitazone, metformin.rosiglitazone, metformin.pioglitazone αφορούν φάρμακα, έχουν μόνο μία unique_value και μάλλον μπορούν να παραληφθούν.

  • Η μεταβλητή patient_nbr μπορεί να χρησιμοποιηθεί για να κρατήσουμε μία καταχώρηση/σειρά ανά ασθενή ή/και να παραληφθεί.

  • Η μεταβλητή discharge_disposition_id μας δείχνει ότι υπάρχουν περιπτώσεις στις οποίες οι ασθενείς κατέληξαν(expired) ή μεταφερθηκαν σε άλλες δομές(hospice) και ίσως πρέπει να εξεταστεί για bias.


Ομαδοποίηση και Φιλτράρισμα καταχωρήσεων/σειρών


patient_nbr
Only first instance for each patient, using patient_nbr.

data_clean <- data_clean %>% distinct(patient_nbr, .keep_all = TRUE)


diag_1, diag_2, diag_3

Ομαδοποίηση των τιμών των diag_1, diag_2, diag_3 με χρήση των ICD-9 codes ως εξής:


admission_source_id

Ομαδοποίηση των τιμων της admission_source_id ως εξής:


medical_specialty

Ομαδοποίηση των τιμων της medical_specialty ως εξής:

Further grouping της medical_specialty ως εξής:


discharge_disposition_id

Ομαδοποίηση των τιμων της discharge_disposition_id ως εξής:

Remove “Expired” and “Left AMA/Hospice”


drugs

Ομαδοποίηση των τιμων των μεταβλητων metformin, repaglinide, nateglinide, glimepiride, glipizide, glyburide, pioglitazone, rosiglitazon, acarbose, insulin,οι οποίες αφορούν φαρμακα με >1 unique values ως εξής:

  • “Down”, “Steady”, “Up” –> “YES”

  • “ΝΟ” –> “ΝΟ”



03.12.2024 update

Keep only discharged home



Regroup race


Remove vars with only 1 unique value


group A1Cresult



Make separate dataset: “>30”,“NO” classes for readmitted target variable


Exporting data: “>30”,“NO” classes used for readmitted target variable…


readmitted (TARGET)

Ομαδοποίηση ως εξής:

  • “<30” –> “YES”

  • “>30” –> “YES”

  • “ΝΟ” –> “ΝΟ”



Exporting data: “NO”,“YES” classes used for readmitted target variable…