cleaningdata.knit

data <- read.csv("hospital_dataset (1).csv")

Lihat struktur data

summary(data)

##      Nama           Tanggal_Lahir         Tensi          
##  Length:700         Length:700         Length:700        
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
##                                                          
##  Skin_Stiffness_N_per_mm Microcirculation_PU Suhu_Tubuh_Celcius
##  Min.   : -2.180         Min.   : -32.50     Length:700        
##  1st Qu.:  0.700         1st Qu.:  18.00     Class :character  
##  Median :  1.100         Median :  27.70     Mode  :character  
##  Mean   :  1.342         Mean   :  35.58                       
##  3rd Qu.:  1.595         3rd Qu.:  39.00                       
##  Max.   :150.000         Max.   :5000.00                       
##  NA's   :37              NA's   :50                            
##    Penyakit         Peak_Plantar_Pressure_kPa
##  Length:700         Min.   : -100.0          
##  Class :character   1st Qu.:  268.6          
##  Mode  :character   Median :  384.3          
##                     Mean   :  991.9          
##                     3rd Qu.:  508.5          
##                     Max.   :99999.0          
##                     NA's   :43

head (data, 5)

##               Nama Tanggal_Lahir    Tensi Skin_Stiffness_N_per_mm
## 1 Michael Anderson    01/04/1957   112/67                    0.69
## 2              N/A    20/09/1975 140 / 91                    1.50
## 3     Tan Wei Ming    12/04/1965   134/72                    0.76
## 4    Shen Yi-Ching    11/09/1980   120/79                    1.92
## 5     Kung Mei-Lin    22/08/1985    99/77                    0.81
##   Microcirculation_PU Suhu_Tubuh_Celcius     Penyakit Peak_Plantar_Pressure_kPa
## 1                42.0               37.6 Non-Diabetic                     294.0
## 2                41.9             36.5°C Non-Diabetic                        NA
## 3                26.3               37.5 Non-Diabetic                     431.8
## 4                  NA               37.0     Diabetic                     577.5
## 5                25.5               36.0     Diabetic                     502.3

Cek missing value

colSums(is.na(data))

##                      Nama             Tanggal_Lahir                     Tensi 
##                         0                         0                         0 
##   Skin_Stiffness_N_per_mm       Microcirculation_PU        Suhu_Tubuh_Celcius 
##                        37                        50                         0 
##                  Penyakit Peak_Plantar_Pressure_kPa 
##                         0                        43

cleaning data

data_clean <- na.omit(data)

ubah nama kolom

names(data) <- tolower(names(data))
names(data) <- gsub(" ", "_", names(data))

names(data)

## [1] "nama"                      "tanggal_lahir"            
## [3] "tensi"                     "skin_stiffness_n_per_mm"  
## [5] "microcirculation_pu"       "suhu_tubuh_celcius"       
## [7] "penyakit"                  "peak_plantar_pressure_kpa"

cek apakah masih ada missing value? Intrepetasi : jika true= ada missing value false = tidak ada missing value

any(is.na(data))

## [1] TRUE

cek tingkat keparahan jika dibawah 10% maka data aman dan tidak perlu ditindak lanjutin jika diatas 10% maka data harus dipertimbangkan

colMeans(is.na(data)) * 100

##                      nama             tanggal_lahir                     tensi 
##                  0.000000                  0.000000                  0.000000 
##   skin_stiffness_n_per_mm       microcirculation_pu        suhu_tubuh_celcius 
##                  5.285714                  7.142857                  0.000000 
##                  penyakit peak_plantar_pressure_kpa 
##                  0.000000                  6.142857

karena hasilnya dibawah 10% maka data tidak perlu dipertimbangkan