Transformasi data adalah proses konversi data ke dalam skala baru agar memenuhi homogenitas ragam dan sebaran data menjadi normal. Data yang perlu ditransformasi adalah data yang akan dianalisis varian, namun data tersebut tidak memenuhi syarat untuk dilakukan analisis. disini akan coba dianalisis suatu datasets
data = read.csv("C:/Belajar/Kalkulus/data_5.csv")
kita akan melakukan transformasi pada kolom lead_time dan menggunakan boxplot untuk memudahkan transformasi
summary(data$lead_time)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 18 69 104 160 737
boxplot(data$lead_time, main ="Boxplot Lead time pengunjung Hotel")
maka dengan boxplot kita dapat mengetahui ringkasan data yang akan kita
oleh seperti nilai max paling atas, quartil 3,median,quartil pertama,
dan nilai min, jika kita lihat boxplot diatas masih menjurau ke atas
maka kita mencoba konsep transformasi tukey
dataakar=sqrt(data$lead_time)
boxplot(dataakar)
boxplot yang dihasilkan dengan diakar belum simetris maka kita coba
dengan log10
datalog= log10(data$lead_time)
jika kita lihat boxplot yang dihasilkan sebagai berikut
boxplot(datalog, main="boxplot simetris data lead time pengunjung hotel")
## Warning in bplt(at[i], wid = width[i], stats = z$stats[, i], out = z$out[z$group
## == : Outlier (-Inf) in boxplot 1 is not drawn
untuk melihat perbandingan antara boxplot transformasi dan data awal
sebelum ditransformasi menggunakan cbind
boxplot(cbind(dataakar,datalog))
## Warning in bplt(at[i], wid = width[i], stats = z$stats[, i], out = z$out[z$group
## == : Outlier (-Inf) in boxplot 2 is not drawn
hasil=(cbind(data$lead_time,dataakar,datalog))