Matriks Korelasi Dengan Visualisasi Scatter & Histogram
Pendahuluan
Pembahasan kali ini lebih difokuskan untuk para pengguna R yang sudah memiliki pengalaman dalam melakukan perhitungan korelasi dan juga pemahaman mengenai intuisi dari korelasi.
Biasanya ketika ingin mengetahui hubungan antara satu variabel dengan varibel lainnya, kita para pengguna R bisa melakukan perhitungan korelasi dengan menggunakan fungsi cor(), seperti contoh berikut ini.
Kita memiliki data mengenai seberapa banyak penggunaan kartu kredit yang diwakili pada kolom Balance.
Income Limit Rating Cards Age Education Gender Student Married
1 221.7419 3606 Medium Rating 2 34 11 Male No Yes
2 11241.3006 6645 Medium Rating 3 82 15 Female Yes Yes
3 10939.6956 7075 High Rating 4 71 11 Male No No
Ethnicity Balance.Status Balance
1 Caucasian Low Balance 333
2 Asian High Balance 903
3 Asian High Balance 580
Yang akan dicontohkan adalah bagaimana cara menghitung korelasi antara kolom Income dengan kolom Balance, dengan menggunakan fungsi cor().
cor(x = balance$Income, y = balance$Balance)
[1] 0.4540073
Selain dengan menggunakan fungsi di atas, sering juga dibantu dengan fungsi ggcorr() dari library GGally. Pada artikel kali ini, terdapat beberapa fungsional baru yang dapat dimanfaatkan untuk menganalisa korelasi data.
Selain dari menggunakan fungsi-fungsi yang disampaikan pada bagian pendahuluan, terdapat juga sebuah library yang dapat dimanfaatkan untuk menghasil tampilan yang lebih informatif dibandingkan dengan menggunakan fungsi biasanya.
Library yang akan digunakan adalah PerformanceAnalytics, dan dari library tersebut, fungsi yang akan digunakan adalah chart.Correlation().
library(PerformanceAnalytics)chart.Correlation(R = balance %>%select(is.numeric), # mengisi dengan data yang ingin dihitung korelasinyahistogram =TRUE# diisi dengan FALSE/TRUE tergantung apakah ingin dibuatkan diagram histogram )
Hasil dari visualisasi yang ditampilkan bisa dibilang cukup menarik dikarenakan selain diperlihatkan nilai korelasi dari setiap hubungan kolom, ditampilkan juga visualisasi scatter dan juga histogram, yang membuat pembaca bisa mendapatkan insight yang lebih menaik.
Semoga dengan adanya hasil visualisasi dari fungsi chart.Correlation() dapat memudahkan dan mempertajam analisa yang didapatkan ketika nantinya ingin mengetahui kolom apa yang dirasa memiliki hubungan yang kuat dan bisa dimanfaatkan untuk kebutuhan Machine Learning.