Analisis Multivariat

Deskripsi Dataset

Dataset ini berisi 100 molekul yang dianalisis untuk menentukan kandidat inhibitor dari protein target Sirtuin6. Setiap molekul dijelaskan menggunakan 6 deskriptor numerik, yaitu SC-5, SP-6, SHBd, minHaaCH, maxwHBa, dan FMF. Molekul-molekul tersebut dikelompokkan berdasarkan nilai low-BFE dan high-BFE mereka. Variabel numerik digunakan sebagai fitur (feature) untuk analisis, sedangkan variabel class bersifat kategorikal dan berfungsi sebagai target. Tidak terdapat nilai yang hilang (missing values) pada dataset ini, sehingga memungkinkan analisis multivariat, seperti matriks korelasi, matriks varians-kovarians, dan identifikasi komponen utama melalui eigen value dan eigen vector, dilakukan secara menyeluruh.

Import Data

Pada tahap ini, data diimpor ke dalam R menggunakan fungsi read.csv(). Data yang digunakan berasal dari file SIRTUIN6.csv. Setelah itu, dilakukan pemilihan kolom yang hanya berisi data numerik dengan menggunakan fungsi sapply() dan kondisi is.numeric. Langkah ini dilakukan agar data yang dianalisis sesuai dengan kebutuhan analisis multivariat, karena metode ini umumnya menggunakan data berbentuk numerik.

data <- read.csv("SIRTUIN6.csv")
data_num <- data[, sapply(data, is.numeric)]
head(data_num)

##       SC.5    SP.6     SHBd minHaaCH maxwHBa      FMF
## 1 0.540936 7.64192 0.162171 0.445270 2.20557 0.467742
## 2 0.815332 6.59011 0.000000 0.497445 2.00314 0.415385
## 3 0.734399 6.85522 0.000000 0.507748 1.88590 0.400000
## 4 0.624557 7.00949 0.450300 0.483648 2.02757 0.500000
## 5 0.460290 4.92643 0.448998 0.482293 2.06438 0.536585
## 6 0.739251 5.30234 0.000000 0.503995 1.84017 0.428571

Untuk memastikan apakah data telah berhasil diimpor, digunakan fungsi head() yang menampilkan enam baris pertama dari data numerik. Berdasarkan hasil tersebut, terlihat bahwa data terdiri dari beberapa variabel numerik, yaitu SC.5, SP.6, SHBd, minHaaCH, maxwHBa, dan FMF, yang selanjutnya akan digunakan dalam proses analisis.

Correlation Matrix

Matriks korelasi digunakan untuk melihat hubungan antar variabel numerik dalam data. Nilai korelasi berada pada rentang -1 sampai 1, di mana nilai yang mendekati 1 atau -1 menunjukkan hubungan yang semakin kuat, sedangkan nilai yang mendekati 0 menunjukkan hubungan yang lemah.

cor_matrix <- cor(data_num)
cor_matrix

##                 SC.5        SP.6        SHBd  minHaaCH     maxwHBa       FMF
## SC.5      1.00000000  0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP.6      0.66208234  1.00000000 -0.11309294 0.1956995  0.08952777 0.5798669
## SHBd     -0.10165734 -0.11309294  1.00000000 0.2325906  0.04922928 0.0525741
## minHaaCH  0.11014501  0.19569946  0.23259056 1.0000000  0.46076976 0.2582501
## maxwHBa  -0.08366394  0.08952777  0.04922928 0.4607698  1.00000000 0.1898255
## FMF       0.18169903  0.57986685  0.05257410 0.2582501  0.18982546 1.0000000

Berdasarkan hasil yang diperoleh, terlihat bahwa variabel SC.5 dan SP.6 memiliki nilai korelasi sebesar 0.66, yang berarti terdapat hubungan positif yang cukup kuat antara kedua variabel tersebut. Selain itu, variabel SP.6 dan FMF juga menunjukkan korelasi positif sebesar 0.58, sehingga dapat dikatakan bahwa ketika nilai SP.6 meningkat, nilai FMF cenderung ikut meningkat. Sementara itu, variabel SHBd memiliki nilai korelasi yang relatif rendah dengan variabel lainnya, sehingga hubungan antar variabel tersebut tergolong lemah.

Variance-Covariance Matrix

Matriks varians-kovarians digunakan untuk mengetahui seberapa besar variasi masing-masing variabel serta bagaimana dua variabel berubah secara bersamaan. Nilai varians ditunjukkan oleh diagonal utama matriks, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel.

cov_matrix <- cov(data_num)
cov_matrix

##                  SC.5        SP.6         SHBd    minHaaCH      maxwHBa
## SC.5      0.038073191  0.18129548 -0.006730516 0.002986591 -0.008537740
## SP.6      0.181295476  1.96938510 -0.053851871 0.038164206  0.065707969
## SHBd     -0.006730516 -0.05385187  0.115133039 0.010967139  0.008736117
## minHaaCH  0.002986591  0.03816421  0.010967139 0.019310901  0.033487306
## maxwHBa  -0.008537740  0.06570797  0.008736117 0.033487306  0.273520544
## FMF       0.002561709  0.05879780  0.001288960 0.002593040  0.007173265
##                  FMF
## SC.5     0.002561709
## SP.6     0.058797800
## SHBd     0.001288960
## minHaaCH 0.002593040
## maxwHBa  0.007173265
## FMF      0.005220775

Dari hasil yang diperoleh, dapat dilihat bahwa variabel SP.6 memiliki nilai varians paling besar dibandingkan variabel lainnya. Hal ini menunjukkan bahwa data pada variabel SP.6 memiliki penyebaran yang paling tinggi. Selain itu, kovarians terbesar terdapat pada pasangan variabel SP.6 dan SC.5, yang menandakan bahwa kedua variabel tersebut cenderung mengalami perubahan secara searah.

Eigen Value dan Eigen Vector

Eigen value dan eigen vector digunakan untuk mengetahui struktur utama dari data multivariat. Eigen value menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan arah kontribusi masing-masing variabel terhadap komponen tersebut.

eigen_result <- eigen(cov_matrix)
eigen_result$values

## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384

eigen_result$vectors

##             [,1]        [,2]         [,3]         [,4]         [,5]
## [1,] -0.09219130  0.06060081 -0.003107518  0.970452736 -0.156055543
## [2,] -0.99396947  0.03294359  0.029422161 -0.090947728 -0.005846681
## [3,]  0.02852534 -0.07545079  0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134  0.096256185  0.172774447  0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817  0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490  0.024103802 -0.136626137  0.089770986
##              [,6]
## [1,]  0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,]  0.985604940

Berdasarkan hasil perhitungan, eigen value terbesar adalah 1.99, yang berarti komponen utama pertama mampu menjelaskan variasi paling besar dalam data. Eigen value kedua sebesar 0.27, yang masih memberikan kontribusi terhadap variasi data, meskipun lebih kecil. Sementara itu, eigen value selanjutnya bernilai relatif kecil, sehingga kontribusinya tidak terlalu signifikan. Oleh karena itu, dapat disimpulkan bahwa dua komponen utama pertama sudah cukup mewakili sebagian besar informasi yang terdapat dalam data.