data <- read.csv("hospital_dataset (1).csv")
Lihat struktur data
summary(data)
## Nama Tanggal_Lahir Tensi
## Length:700 Length:700 Length:700
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## Skin_Stiffness_N_per_mm Microcirculation_PU Suhu_Tubuh_Celcius
## Min. : -2.180 Min. : -32.50 Length:700
## 1st Qu.: 0.700 1st Qu.: 18.00 Class :character
## Median : 1.100 Median : 27.70 Mode :character
## Mean : 1.342 Mean : 35.58
## 3rd Qu.: 1.595 3rd Qu.: 39.00
## Max. :150.000 Max. :5000.00
## NA's :37 NA's :50
## Penyakit Peak_Plantar_Pressure_kPa
## Length:700 Min. : -100.0
## Class :character 1st Qu.: 268.6
## Mode :character Median : 384.3
## Mean : 991.9
## 3rd Qu.: 508.5
## Max. :99999.0
## NA's :43
head (data, 5)
## Nama Tanggal_Lahir Tensi Skin_Stiffness_N_per_mm
## 1 Michael Anderson 01/04/1957 112/67 0.69
## 2 N/A 20/09/1975 140 / 91 1.50
## 3 Tan Wei Ming 12/04/1965 134/72 0.76
## 4 Shen Yi-Ching 11/09/1980 120/79 1.92
## 5 Kung Mei-Lin 22/08/1985 99/77 0.81
## Microcirculation_PU Suhu_Tubuh_Celcius Penyakit Peak_Plantar_Pressure_kPa
## 1 42.0 37.6 Non-Diabetic 294.0
## 2 41.9 36.5°C Non-Diabetic NA
## 3 26.3 37.5 Non-Diabetic 431.8
## 4 NA 37.0 Diabetic 577.5
## 5 25.5 36.0 Diabetic 502.3
Cek missing value
colSums(is.na(data))
## Nama Tanggal_Lahir Tensi
## 0 0 0
## Skin_Stiffness_N_per_mm Microcirculation_PU Suhu_Tubuh_Celcius
## 37 50 0
## Penyakit Peak_Plantar_Pressure_kPa
## 0 43
cleaning data
data_clean <- na.omit(data)
ubah nama kolom
names(data) <- tolower(names(data))
names(data) <- gsub(" ", "_", names(data))
names(data)
## [1] "nama" "tanggal_lahir"
## [3] "tensi" "skin_stiffness_n_per_mm"
## [5] "microcirculation_pu" "suhu_tubuh_celcius"
## [7] "penyakit" "peak_plantar_pressure_kpa"
cek apakah masih ada missing value? Intrepetasi : jika true= ada missing value false = tidak ada missing value
any(is.na(data))
## [1] TRUE
cek tingkat keparahan jika dibawah 10% maka data aman dan tidak perlu ditindak lanjutin jika diatas 10% maka data harus dipertimbangkan
colMeans(is.na(data)) * 100
## nama tanggal_lahir tensi
## 0.000000 0.000000 0.000000
## skin_stiffness_n_per_mm microcirculation_pu suhu_tubuh_celcius
## 5.285714 7.142857 0.000000
## penyakit peak_plantar_pressure_kpa
## 0.000000 6.142857
karena hasilnya dibawah 10% maka data tidak perlu dipertimbangkan