Dataset ini berisi 100 molekul yang dianalisis untuk menentukan kandidat inhibitor dari protein target Sirtuin6. Setiap molekul dijelaskan menggunakan 6 deskriptor numerik, yaitu SC-5, SP-6, SHBd, minHaaCH, maxwHBa, dan FMF. Molekul-molekul tersebut dikelompokkan berdasarkan nilai low-BFE dan high-BFE mereka. Variabel numerik digunakan sebagai fitur (feature) untuk analisis, sedangkan variabel class bersifat kategorikal dan berfungsi sebagai target. Tidak terdapat nilai yang hilang (missing values) pada dataset ini, sehingga memungkinkan analisis multivariat, seperti matriks korelasi, matriks varians-kovarians, dan identifikasi komponen utama melalui eigen value dan eigen vector, dilakukan secara menyeluruh.
Pada tahap ini, data diimpor ke dalam R menggunakan fungsi read.csv(). Data yang digunakan berasal dari file SIRTUIN6.csv. Setelah itu, dilakukan pemilihan kolom yang hanya berisi data numerik dengan menggunakan fungsi sapply() dan kondisi is.numeric. Langkah ini dilakukan agar data yang dianalisis sesuai dengan kebutuhan analisis multivariat, karena metode ini umumnya menggunakan data berbentuk numerik.
data <- read.csv("SIRTUIN6.csv")
data_num <- data[, sapply(data, is.numeric)]
head(data_num)
## SC.5 SP.6 SHBd minHaaCH maxwHBa FMF
## 1 0.540936 7.64192 0.162171 0.445270 2.20557 0.467742
## 2 0.815332 6.59011 0.000000 0.497445 2.00314 0.415385
## 3 0.734399 6.85522 0.000000 0.507748 1.88590 0.400000
## 4 0.624557 7.00949 0.450300 0.483648 2.02757 0.500000
## 5 0.460290 4.92643 0.448998 0.482293 2.06438 0.536585
## 6 0.739251 5.30234 0.000000 0.503995 1.84017 0.428571
Untuk memastikan apakah data telah berhasil diimpor, digunakan fungsi head() yang menampilkan enam baris pertama dari data numerik. Berdasarkan hasil tersebut, terlihat bahwa data terdiri dari beberapa variabel numerik, yaitu SC.5, SP.6, SHBd, minHaaCH, maxwHBa, dan FMF, yang selanjutnya akan digunakan dalam proses analisis.
Matriks korelasi digunakan untuk melihat hubungan antar variabel numerik dalam data. Nilai korelasi berada pada rentang -1 sampai 1, di mana nilai yang mendekati 1 atau -1 menunjukkan hubungan yang semakin kuat, sedangkan nilai yang mendekati 0 menunjukkan hubungan yang lemah.
cor_matrix <- cor(data_num)
cor_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa FMF
## SC.5 1.00000000 0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP.6 0.66208234 1.00000000 -0.11309294 0.1956995 0.08952777 0.5798669
## SHBd -0.10165734 -0.11309294 1.00000000 0.2325906 0.04922928 0.0525741
## minHaaCH 0.11014501 0.19569946 0.23259056 1.0000000 0.46076976 0.2582501
## maxwHBa -0.08366394 0.08952777 0.04922928 0.4607698 1.00000000 0.1898255
## FMF 0.18169903 0.57986685 0.05257410 0.2582501 0.18982546 1.0000000
Berdasarkan hasil yang diperoleh, terlihat bahwa variabel SC.5 dan SP.6 memiliki nilai korelasi sebesar 0.66, yang berarti terdapat hubungan positif yang cukup kuat antara kedua variabel tersebut. Selain itu, variabel SP.6 dan FMF juga menunjukkan korelasi positif sebesar 0.58, sehingga dapat dikatakan bahwa ketika nilai SP.6 meningkat, nilai FMF cenderung ikut meningkat. Sementara itu, variabel SHBd memiliki nilai korelasi yang relatif rendah dengan variabel lainnya, sehingga hubungan antar variabel tersebut tergolong lemah.
Matriks varians-kovarians digunakan untuk mengetahui seberapa besar variasi masing-masing variabel serta bagaimana dua variabel berubah secara bersamaan. Nilai varians ditunjukkan oleh diagonal utama matriks, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel.
cov_matrix <- cov(data_num)
cov_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa
## SC.5 0.038073191 0.18129548 -0.006730516 0.002986591 -0.008537740
## SP.6 0.181295476 1.96938510 -0.053851871 0.038164206 0.065707969
## SHBd -0.006730516 -0.05385187 0.115133039 0.010967139 0.008736117
## minHaaCH 0.002986591 0.03816421 0.010967139 0.019310901 0.033487306
## maxwHBa -0.008537740 0.06570797 0.008736117 0.033487306 0.273520544
## FMF 0.002561709 0.05879780 0.001288960 0.002593040 0.007173265
## FMF
## SC.5 0.002561709
## SP.6 0.058797800
## SHBd 0.001288960
## minHaaCH 0.002593040
## maxwHBa 0.007173265
## FMF 0.005220775
Dari hasil yang diperoleh, dapat dilihat bahwa variabel SP.6 memiliki nilai varians paling besar dibandingkan variabel lainnya. Hal ini menunjukkan bahwa data pada variabel SP.6 memiliki penyebaran yang paling tinggi. Selain itu, kovarians terbesar terdapat pada pasangan variabel SP.6 dan SC.5, yang menandakan bahwa kedua variabel tersebut cenderung mengalami perubahan secara searah.
Eigen value dan eigen vector digunakan untuk mengetahui struktur utama dari data multivariat. Eigen value menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan arah kontribusi masing-masing variabel terhadap komponen tersebut.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384
eigen_result$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.09219130 0.06060081 -0.003107518 0.970452736 -0.156055543
## [2,] -0.99396947 0.03294359 0.029422161 -0.090947728 -0.005846681
## [3,] 0.02852534 -0.07545079 0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134 0.096256185 0.172774447 0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817 0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490 0.024103802 -0.136626137 0.089770986
## [,6]
## [1,] 0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,] 0.985604940
Berdasarkan hasil perhitungan, eigen value terbesar adalah 1.99, yang berarti komponen utama pertama mampu menjelaskan variasi paling besar dalam data. Eigen value kedua sebesar 0.27, yang masih memberikan kontribusi terhadap variasi data, meskipun lebih kecil. Sementara itu, eigen value selanjutnya bernilai relatif kecil, sehingga kontribusinya tidak terlalu signifikan. Oleh karena itu, dapat disimpulkan bahwa dua komponen utama pertama sudah cukup mewakili sebagian besar informasi yang terdapat dalam data.