Permasalahan yang dihadapi

Ini cara jitu melakukan transformasi data dari keadaan itu agar berdistribusi normal.

Saya memiliki simulasi data yang distribusinya condong ke kanan, kita lihat histogramnya :

Biasanya kita menguji sekumpulan data apakah berdistribusi normal dengan uji Shapiro-Wilk test, mari kita uji dan kita lihat plot qq normalnya

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.98173, p-value = 7.125e-10

Karena nilai p pada uji shapiro test < 0.05 maka distribusi ini tidak berdistribusi normal, dan pada QQ plot terdapat nilai yang ekstrim.

Transformasi ke Logaritmik

Cara ini yang biasa ditempuh dengan merubah data dengan fungsi logaritmik dengan kita coba sebagai berikut, dan kita lihat hasil histogramnya

Kemudian Uji Shapiro dan QQ Plot Normalnya

## 
##  Shapiro-Wilk normality test
## 
## data:  x_log
## W = 0.94659, p-value < 2.2e-16

Hasilnya, masih mengecewakan dimana data masih belum berdistribusi normal, karena dari histogram yang masih condong ke kanan, uji shapiro yang lebih kecil dari 0.05, dan dari plot QQ normalnya terlihat masih ada nilai yang ekstrim. Hal ini biasanya membuat jengkel dan Frustrasi, bagaimana jalan keluarnya?

Transformasi Jhonson

Pertama Kita melakukan pengujian melalui Anderson-Darling Normality

## [[1]]
## [1] "Anderson-Darling Test"
## 
## $p
## [1] 8.366116e-09

Kita lihat nilai peluang data untuk berdistribusi normalnya masil kecil(dibawah 0.05)

Kita coba transformasi dengan metode Johnson dan kita lihat distribusi serta QQ Plotnya

aka hasilnya ….Amazing!!!! datanya berbentuk bell…dan pada qq plot normal tidak terdapat nilai ekstrim. Belum cukup dengan hal itu kita mencoba pengujian normalitas dengan shapiro test dan Anderson-Darling Normality

## 
##  Shapiro-Wilk normality test
## 
## data:  x_johnson$transformed
## W = 0.99905, p-value = 0.9
## [[1]]
## [1] "Anderson-Darling Test"
## 
## $p
## [1] 0.9939523

Keduanya menghasilkan nilai peluang untuk berdistribusi normal karena nilai p pada uji shapiro maupun anderson memiliki nilai di atas 0.05.

Demikian cara ini dapat digunakan untuk melakukan transformasi dari sekumpulan data yang tidak berdistribusi normal agar menjadi berdistribusi normal, hal ini akan berguna bagi para data scientist atau HR profesional yang menggeluti pengelolaan kinerja yang terbiasa harus mengikuti distribusi normal atau forced distribution.

Semoga berkah, baroqoloh u fee kum

Depok 18-12-2016

Heru Wiryanto