Περιγραφή Αρχικού dataset
Για περιγραφή του αρχικού dataset πατήστε εδώ.
Προεπεξεργασία και περιγραφή dataset ΧΩΡΙΣ το
Βάρος(Weight)
Για την προεπεξεργασία και περιγραφή του dataset ΧΩΡΙΣ το Βάρος(Weight)
πατήστε εδώ.
Σε αυτήν την εκδοχή του dataset θα κρατήσουμε το βάρος(Weight) και θα
αφαιρέσουμε τις καταχωρήσεις/σειρές με missing values από όλες τις
μεταβλητές. Οπότε:
Επομένως καταλήγουμε(προς το παρόν) στο dataset με 48
μεταβλητές(47 + 1 target) και 1254
παρατηρήσεις/σειρές.
Missing και Unique Values ανά μεταβλητή
admission_type_id (3 unique values)
discharge_disposition_id (9 unique values)
όπου: SNF: Skilled Nursing Facility, ICF: Intermediate Care Facility,
AMA: Against Medical Advice
admission_source_id (5 unique values)
medical_specialty (8 unique values)
readmitted (TARGET - 3 unique
values)
Στις παραπάνω μεταβλητές πιθανόν να χρειαστεί επεξεργασία ή/και ομαδοποίηση.
Επίσης:
Οι κατηγορικές μεταβλητές diag_1, diag_2 και diag_3 αφορούν διαγνώσεις και έχουν τουλάχιστον 200 unique_values η κάθε μία.
Οι κατηγορικές μεταβλητές max_glu_serum, chlorpropamide, acetohexamide, tolbutamide, miglitol, troglitazone, tolazamide, examide, citoglipton, glyburide.metformin, glipizide.metformin, glimepiride.pioglitazone, metformin.rosiglitazone, metformin.pioglitazone αφορούν φάρμακα, έχουν μόνο μία unique_value και μάλλον μπορούν να παραληφθούν.
Η μεταβλητή patient_nbr μπορεί να χρησιμοποιηθεί για να κρατήσουμε μία καταχώρηση/σειρά ανά ασθενή ή/και να παραληφθεί.
Η μεταβλητή discharge_disposition_id μας δείχνει
ότι υπάρχουν περιπτώσεις στις οποίες οι ασθενείς κατέληξαν(expired) ή
μεταφερθηκαν σε άλλες δομές(hospice) και ίσως πρέπει να εξεταστεί για
bias.
patient_nbr
Only first instance for each patient, using patient_nbr.
data_clean <- data_clean %>% distinct(patient_nbr, .keep_all = TRUE)
diag_1, diag_2,
diag_3
Ομαδοποίηση των τιμών των diag_1, diag_2, diag_3 με χρήση των ICD-9 codes ως εξής:
admission_source_id
Ομαδοποίηση των τιμων της admission_source_id ως εξής:
medical_specialty
Ομαδοποίηση των τιμων της medical_specialty ως εξής:
Further grouping της medical_specialty ως εξής:
discharge_disposition_id
Ομαδοποίηση των τιμων της discharge_disposition_id ως εξής:
Remove “Expired” and “Left AMA/Hospice”
drugs
Ομαδοποίηση των τιμων των μεταβλητων metformin, repaglinide, nateglinide, glimepiride, glipizide, glyburide, pioglitazone, rosiglitazon, acarbose, insulin,οι οποίες αφορούν φαρμακα με >1 unique values ως εξής:
“Down”, “Steady”, “Up” –> “YES”
“ΝΟ” –> “ΝΟ”
03.12.2024 update
Keep only discharged home
Regroup race
Remove vars with only 1 unique value
group A1Cresult
Make separate dataset: “>30”,“NO” classes for readmitted target variable
Exporting data: “>30”,“NO” classes used for
readmitted target variable…
readmitted (TARGET)
Ομαδοποίηση ως εξής:
“<30” –> “YES”
“>30” –> “YES”
“ΝΟ” –> “ΝΟ”
Exporting data: “NO”,“YES” classes used for
readmitted target variable…