Matriks Korelasi Dengan Visualisasi Scatter & Histogram

Pendahuluan

Pembahasan kali ini lebih difokuskan untuk para pengguna R yang sudah memiliki pengalaman dalam melakukan perhitungan korelasi dan juga pemahaman mengenai intuisi dari korelasi.

Biasanya ketika ingin mengetahui hubungan antara satu variabel dengan varibel lainnya, kita para pengguna R bisa melakukan perhitungan korelasi dengan menggunakan fungsi cor(), seperti contoh berikut ini.

Kita memiliki data mengenai seberapa banyak penggunaan kartu kredit yang diwakili pada kolom Balance.

library(dplyr)
balance <- read.csv("balance.csv")
balance %>% 
  head(3)
      Income Limit        Rating Cards Age Education Gender Student Married
1   221.7419  3606 Medium Rating     2  34        11   Male      No     Yes
2 11241.3006  6645 Medium Rating     3  82        15 Female     Yes     Yes
3 10939.6956  7075   High Rating     4  71        11   Male      No      No
  Ethnicity Balance.Status Balance
1 Caucasian    Low Balance     333
2     Asian   High Balance     903
3     Asian   High Balance     580

Yang akan dicontohkan adalah bagaimana cara menghitung korelasi antara kolom Income dengan kolom Balance, dengan menggunakan fungsi cor().

cor(x = balance$Income, y = balance$Balance)
[1] 0.4540073

Selain dengan menggunakan fungsi di atas, sering juga dibantu dengan fungsi ggcorr() dari library GGally. Pada artikel kali ini, terdapat beberapa fungsional baru yang dapat dimanfaatkan untuk menganalisa korelasi data.

library(GGally)
ggcorr(data = balance, label = TRUE)

chart.Correlation()

Selain dari menggunakan fungsi-fungsi yang disampaikan pada bagian pendahuluan, terdapat juga sebuah library yang dapat dimanfaatkan untuk menghasil tampilan yang lebih informatif dibandingkan dengan menggunakan fungsi biasanya.

Library yang akan digunakan adalah PerformanceAnalytics, dan dari library tersebut, fungsi yang akan digunakan adalah chart.Correlation().

library(PerformanceAnalytics)

chart.Correlation(
  R = balance %>% select(is.numeric), # mengisi dengan data yang ingin dihitung korelasinya
  histogram = TRUE # diisi dengan FALSE/TRUE tergantung apakah ingin dibuatkan diagram histogram
                  )

Hasil dari visualisasi yang ditampilkan bisa dibilang cukup menarik dikarenakan selain diperlihatkan nilai korelasi dari setiap hubungan kolom, ditampilkan juga visualisasi scatter dan juga histogram, yang membuat pembaca bisa mendapatkan insight yang lebih menaik.

Semoga dengan adanya hasil visualisasi dari fungsi chart.Correlation() dapat memudahkan dan mempertajam analisa yang didapatkan ketika nantinya ingin mengetahui kolom apa yang dirasa memiliki hubungan yang kuat dan bisa dimanfaatkan untuk kebutuhan Machine Learning.