Seringkali dihadapkan kepada data yang tidak berdistribusi normal, padahal asumsi uji statistikanya mempersyaratkan normalitas.
Para Praktisi HR yang pusing menghadapi datanya yang berkumpul dipengelompokkan kategori misalkan hasil penilaian yang distribusinya skewness atau mempunyai kemiringan/ kecondongan grafik baik ke arah kiri atau sebaliknya ke kanan.
Ini cara jitu melakukan transformasi data dari keadaan itu agar berdistribusi normal.
Saya memiliki simulasi data yang distribusinya condong ke kanan, kita lihat histogramnya :
Biasanya kita menguji sekumpulan data apakah berdistribusi normal dengan uji Shapiro-Wilk test, mari kita uji dan kita lihat plot qq normalnya
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98173, p-value = 7.125e-10
Karena nilai p pada uji shapiro test < 0.05 maka distribusi ini tidak berdistribusi normal, dan pada QQ plot terdapat nilai yang ekstrim.
Cara ini yang biasa ditempuh dengan merubah data dengan fungsi logaritmik dengan kita coba sebagai berikut, dan kita lihat hasil histogramnya
Kemudian Uji Shapiro dan QQ Plot Normalnya
##
## Shapiro-Wilk normality test
##
## data: x_log
## W = 0.94659, p-value < 2.2e-16
Hasilnya, masih mengecewakan dimana data masih belum berdistribusi normal, karena dari histogram yang masih condong ke kanan, uji shapiro yang lebih kecil dari 0.05, dan dari plot QQ normalnya terlihat masih ada nilai yang ekstrim. Hal ini biasanya membuat jengkel dan Frustrasi, bagaimana jalan keluarnya?
Pertama Kita melakukan pengujian melalui Anderson-Darling Normality
## [[1]]
## [1] "Anderson-Darling Test"
##
## $p
## [1] 8.366116e-09
Kita lihat nilai peluang data untuk berdistribusi normalnya masil kecil(dibawah 0.05)
Kita coba transformasi dengan metode Johnson dan kita lihat distribusi serta QQ Plotnya
aka hasilnya ….Amazing!!!! datanya berbentuk bell…dan pada qq plot normal tidak terdapat nilai ekstrim. Belum cukup dengan hal itu kita mencoba pengujian normalitas dengan shapiro test dan Anderson-Darling Normality
##
## Shapiro-Wilk normality test
##
## data: x_johnson$transformed
## W = 0.99905, p-value = 0.9
## [[1]]
## [1] "Anderson-Darling Test"
##
## $p
## [1] 0.9939523
Keduanya menghasilkan nilai peluang untuk berdistribusi normal karena nilai p pada uji shapiro maupun anderson memiliki nilai di atas 0.05.
Demikian cara ini dapat digunakan untuk melakukan transformasi dari sekumpulan data yang tidak berdistribusi normal agar menjadi berdistribusi normal, hal ini akan berguna bagi para data scientist atau HR profesional yang menggeluti pengelolaan kinerja yang terbiasa harus mengikuti distribusi normal atau forced distribution.
Semoga berkah, baroqoloh u fee kum
Depok 18-12-2016
Heru Wiryanto