Περιγραφή Αρχικού dataset
Για περιγραφή του αρχικού dataset πατήστε εδώ.
Προεπεξεργασία και περιγραφή dataset ΜΕ το
Βάρος(Weight)
Για την προεπεξεργασία και περιγραφή dataset ΜΕ το Βάρος(Weight) πατήστε
εδώ.
Σε αυτήν την εκδοχή του dataset θα αφαιρέσουμε αρχικά το βάρος(Weight),
λόγω τον πολλών missing values και στη συνέχεια θα αφαιρέσουμε τις
καταχωρήσεις/σειρές με missing values απο τις υπόλοιπες μεταβλητές.
Οπότε:
Επομένως καταλήγουμε(προς το παρόν) στο dataset με 47
μεταβλητές(46 + 1 target) και 42572
παρατηρήσεις/σειρές.
Missing και Unique Values ανά μεταβλητή
admission_type_id (4 unique values)
discharge_disposition_id (20 unique values)
όπου: SNF: Skilled Nursing Facility, ICF: Intermediate Care Facility,
AMA: Against Medical Advice
admission_source_id (12 unique values)
medical_specialty (70 unique values)
readmitted (TARGET - 3 unique
values)
Στις παραπάνω μεταβλητές πιθανόν να χρειαστεί επεξεργασία ή/και ομαδοποίηση.
Επίσης:
Οι κατηγορικές μεταβλητές diag_1, diag_2 και diag_3 αφορούν διαγνώσεις και έχουν τουλάχιστον 625 unique_values η κάθε μία.
Οι κατηγορικές μεταβλητές acetohexamide, examide, citoglipton, glimepiride.pioglitazone, metformin.rosiglitazone αφορούν φάρμακα, έχουν μόνο μία unique_value και μάλλον μπορούν να παραληφθούν.
Η μεταβλητή patient_nbr μπορεί να χρησιμοποιηθεί για να κρατήσουμε μία καταχώρηση/σειρά ανά ασθενή ή/και να παραληφθεί.
Η μεταβλητή discharge_disposition_id μας
δείχνει ότι υπάρχουν περιπτώσεις στις οποίες οι ασθενείς
κατέληξαν(expired) ή μεταφερθηκαν σε άλλες δομές(hospice) και ίσως
πρέπει να εξεταστεί για bias.
patient_nbr
Only first instance for each patient, using patient_nbr.
diag_1, diag_2,
diag_3
Ομαδοποίηση των τιμών των diag_1, diag_2, diag_3 με χρήση των ICD-9 codes ως εξής:
admission_source_id
Ομαδοποίηση των τιμων της admission_source_id ως εξής:
medical_specialty
Ομαδοποίηση των τιμων της medical_specialty ως εξής:
Further grouping
discharge_disposition_id
Ομαδοποίηση των τιμων της discharge_disposition_id ως εξής:
Remove “Expired” and “Left AMA/Hospice” to avoid bias
drugs
Ομαδοποίηση των τιμων των μεταβλητων metformin, repaglinide, nateglinide, glimepiride, glipizide, glyburide, pioglitazone, rosiglitazon, acarbose, insulin,οι οποίες αφορούν φαρμακα με >1 unique values ως εξής:
“Down”, “Steady”, “Up” –> “YES”
“ΝΟ” –> “ΝΟ”
31.10.2024 update
Keep only discharged home, delete admission_type_id = 4, admission_source_id=“Other”, max_glu_serum = Norm
Regroup race
Remove vars with only 1 unique value
01.11.2024 update
02.11.2024 update
group A1Cresult
Keep“>30”,“NO” classes for
readmitted target variable
Exporting data: “>30”,“NO” classes used for
readmitted target variable…
readmitted (TARGET)
Ομαδοποίηση ως εξής:
“<30” –> “YES”
“>30” –> “YES”
“ΝΟ” –> “ΝΟ”
Exporting data: “NO”,“YES” classes used for
readmitted target variable…