Transformasi data adalah proses konversi data ke dalam skala baru agar memenuhi homogenitas ragam dan sebaran data menjadi normal. Data yang perlu ditransformasi adalah data yang akan dianalisis varian, namun data tersebut tidak memenuhi syarat untuk dilakukan analisis. disini akan coba dianalisis suatu datasets

data = read.csv("C:/Belajar/Kalkulus/data_5.csv")

kita akan melakukan transformasi pada kolom lead_time dan menggunakan boxplot untuk memudahkan transformasi

summary(data$lead_time)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0      18      69     104     160     737
boxplot(data$lead_time, main ="Boxplot Lead time pengunjung Hotel")

maka dengan boxplot kita dapat mengetahui ringkasan data yang akan kita oleh seperti nilai max paling atas, quartil 3,median,quartil pertama, dan nilai min, jika kita lihat boxplot diatas masih menjurau ke atas maka kita mencoba konsep transformasi tukey

dataakar=sqrt(data$lead_time)
boxplot(dataakar)

boxplot yang dihasilkan dengan diakar belum simetris maka kita coba dengan log10

datalog= log10(data$lead_time)

jika kita lihat boxplot yang dihasilkan sebagai berikut

boxplot(datalog, main="boxplot simetris data lead time pengunjung hotel")
## Warning in bplt(at[i], wid = width[i], stats = z$stats[, i], out = z$out[z$group
## == : Outlier (-Inf) in boxplot 1 is not drawn

untuk melihat perbandingan antara boxplot transformasi dan data awal sebelum ditransformasi menggunakan cbind

boxplot(cbind(dataakar,datalog))
## Warning in bplt(at[i], wid = width[i], stats = z$stats[, i], out = z$out[z$group
## == : Outlier (-Inf) in boxplot 2 is not drawn

hasil=(cbind(data$lead_time,dataakar,datalog))

Sumber : https://www.youtube.com/watch?v=G3NSZgEqRzc