Στοιχεία για το dataset


Περιγραφή Αρχικού dataset
Για περιγραφή του αρχικού dataset πατήστε εδώ.


Προεπεξεργασία και περιγραφή dataset ΜΕ το Βάρος(Weight)
Για την προεπεξεργασία και περιγραφή dataset ΜΕ το Βάρος(Weight) πατήστε εδώ.


Επεξεργασία dataset


Σε αυτήν την εκδοχή του dataset θα αφαιρέσουμε αρχικά το βάρος(Weight), λόγω τον πολλών missing values και στη συνέχεια θα αφαιρέσουμε τις καταχωρήσεις/σειρές με missing values απο τις υπόλοιπες μεταβλητές. Οπότε:


Αφαίρεση Μεταβλητών και καταχωρήσεων/σειρών

  1. Αφαίρεση Μεταβλητών: encounter_id, weight και payer_code. Έμειναν 47 μεταβλητές.
  2. Αφαίρεση όλων των καταχωρήσεων/σειρών που περιέχουν τουλάχιστον μία missing value(ΝΑ). Έμειναν 49735 καταχωρήσεις/σειρές.
  3. Αφαίρεση ανά μεταβλητή όλων των καταχωρήσεων/σειρών που περιέχουν τιμές “NULL”, “Not Mapped” ή “Not Available”. Έμειναν 42572 καταχωρήσεις/σειρές.

Επομένως καταλήγουμε(προς το παρόν) στο dataset με 47 μεταβλητές(46 + 1 target) και 42572 παρατηρήσεις/σειρές.


Missing και Unique Values ανά μεταβλητή



Μεταβλητές που θέλουν εμβάθυνση


admission_type_id (4 unique values)



discharge_disposition_id (20 unique values)

όπου: SNF: Skilled Nursing Facility, ICF: Intermediate Care Facility, AMA: Against Medical Advice


admission_source_id (12 unique values)



medical_specialty (70 unique values)



readmitted (TARGET - 3 unique values)


Στις παραπάνω μεταβλητές πιθανόν να χρειαστεί επεξεργασία ή/και ομαδοποίηση.


Επίσης:

  • Οι κατηγορικές μεταβλητές diag_1, diag_2 και diag_3 αφορούν διαγνώσεις και έχουν τουλάχιστον 625 unique_values η κάθε μία.

  • Οι κατηγορικές μεταβλητές acetohexamide, examide, citoglipton, glimepiride.pioglitazone, metformin.rosiglitazone αφορούν φάρμακα, έχουν μόνο μία unique_value και μάλλον μπορούν να παραληφθούν.

  • Η μεταβλητή patient_nbr μπορεί να χρησιμοποιηθεί για να κρατήσουμε μία καταχώρηση/σειρά ανά ασθενή ή/και να παραληφθεί.

  • Η μεταβλητή discharge_disposition_id μας δείχνει ότι υπάρχουν περιπτώσεις στις οποίες οι ασθενείς κατέληξαν(expired) ή μεταφερθηκαν σε άλλες δομές(hospice) και ίσως πρέπει να εξεταστεί για bias.


Ομαδοποίηση και Φιλτράρισμα καταχωρήσεων/σειρών


patient_nbr
Only first instance for each patient, using patient_nbr.


diag_1, diag_2, diag_3

Ομαδοποίηση των τιμών των diag_1, diag_2, diag_3 με χρήση των ICD-9 codes ως εξής:


admission_source_id

Ομαδοποίηση των τιμων της admission_source_id ως εξής:


medical_specialty

Ομαδοποίηση των τιμων της medical_specialty ως εξής:

Further grouping


discharge_disposition_id

Ομαδοποίηση των τιμων της discharge_disposition_id ως εξής:

Remove “Expired” and “Left AMA/Hospice” to avoid bias


drugs

Ομαδοποίηση των τιμων των μεταβλητων metformin, repaglinide, nateglinide, glimepiride, glipizide, glyburide, pioglitazone, rosiglitazon, acarbose, insulin,οι οποίες αφορούν φαρμακα με >1 unique values ως εξής:

  • “Down”, “Steady”, “Up” –> “YES”

  • “ΝΟ” –> “ΝΟ”



31.10.2024 update

Keep only discharged home, delete admission_type_id = 4, admission_source_id=“Other”, max_glu_serum = Norm


Regroup race


Remove vars with only 1 unique value



01.11.2024 update


02.11.2024 update

group A1Cresult



Keep“>30”,“NO” classes for readmitted target variable


Exporting data: “>30”,“NO” classes used for readmitted target variable…


readmitted (TARGET)

Ομαδοποίηση ως εξής:

  • “<30” –> “YES”

  • “>30” –> “YES”

  • “ΝΟ” –> “ΝΟ”



Exporting data: “NO”,“YES” classes used for readmitted target variable…