Melakukan pembacaan file excel dari dataset yang berisi 100 molekul dengan 6 deskriptor yang dikelompokkan BFE rendah dan tinggi. Serta melakukan pengecekan struktur data untuk tiap variabel.
library(readxl)
SIRTUIN6 <- read_excel("SIRTUIN6.xlsx")
head(SIRTUIN6)
## # A tibble: 6 × 7
## `SC-5` `SP-6` SHBd minHaaCH maxwHBa FMF Class
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 0.541 7.64 0.162 0.445 2.21 0.468 High_BFE
## 2 0.815 6.59 0 0.497 2.00 0.415 High_BFE
## 3 0.734 6.86 0 0.508 1.89 0.4 High_BFE
## 4 0.625 7.01 0.450 0.484 2.03 0.5 High_BFE
## 5 0.460 4.93 0.449 0.482 2.06 0.537 High_BFE
## 6 0.739 5.30 0 0.504 1.84 0.429 High_BFE
str(SIRTUIN6)
## tibble [100 × 7] (S3: tbl_df/tbl/data.frame)
## $ SC-5 : num [1:100] 0.541 0.815 0.734 0.625 0.46 ...
## $ SP-6 : num [1:100] 7.64 6.59 6.86 7.01 4.93 ...
## $ SHBd : num [1:100] 0.162 0 0 0.45 0.449 ...
## $ minHaaCH: num [1:100] 0.445 0.497 0.508 0.484 0.482 ...
## $ maxwHBa : num [1:100] 2.21 2 1.89 2.03 2.06 ...
## $ FMF : num [1:100] 0.468 0.415 0.4 0.5 0.537 ...
## $ Class : chr [1:100] "High_BFE" "High_BFE" "High_BFE" "High_BFE" ...
memilih data numerik pada enam kolom pertama untuk analisis korelasi dan kovarians .
num_data <- SIRTUIN6[, 1:6]
Correlation matrix digunakan untuk melihat hubungan antar variabel dalam dataset.
cor_matrix <- cor(num_data)
cor_matrix
## SC-5 SP-6 SHBd minHaaCH maxwHBa FMF
## SC-5 1.00000000 0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP-6 0.66208234 1.00000000 -0.11309294 0.1956995 0.08952777 0.5798669
## SHBd -0.10165734 -0.11309294 1.00000000 0.2325906 0.04922928 0.0525741
## minHaaCH 0.11014501 0.19569946 0.23259056 1.0000000 0.46076976 0.2582501
## maxwHBa -0.08366394 0.08952777 0.04922928 0.4607698 1.00000000 0.1898255
## FMF 0.18169903 0.57986685 0.05257410 0.2582501 0.18982546 1.0000000
Berdasarkan matriks korelasi, sebagian besar variabel memiliki hubungan yang lemah. Hubungan yang cukup terlihat hanya pada SC-5 dengan SP-6 serta SP-6 dengan FMF yang menunjukkan korelasi positif, sehingga ketika salah satu meningkat, variabel pasangannya cenderung ikut meningkat.
cov_matrix <- cov(num_data)
cov_matrix
## SC-5 SP-6 SHBd minHaaCH maxwHBa
## SC-5 0.038073191 0.18129548 -0.006730516 0.002986591 -0.008537740
## SP-6 0.181295476 1.96938510 -0.053851871 0.038164206 0.065707969
## SHBd -0.006730516 -0.05385187 0.115133039 0.010967139 0.008736117
## minHaaCH 0.002986591 0.03816421 0.010967139 0.019310901 0.033487306
## maxwHBa -0.008537740 0.06570797 0.008736117 0.033487306 0.273520544
## FMF 0.002561709 0.05879780 0.001288960 0.002593040 0.007173265
## FMF
## SC-5 0.002561709
## SP-6 0.058797800
## SHBd 0.001288960
## minHaaCH 0.002593040
## maxwHBa 0.007173265
## FMF 0.005220775
Pada matriks kovarians, variabel SP-6 memiliki nilai kovarians yang paling besar dibandingkan variabel lain. Hal ini menunjukkan bahwa SP-6 memiliki variasi data yang paling dominan dan berkontribusi besar terhadap perubahan total data.Sementara itu, kovarians antar variabel lain relatif kecil sehingga pengaruhnya tidak terlalu signifikan.
eigen_res <- eigen(cov_matrix)
eigen_res$values
## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384
Nilai eigen menunjukkan bahwa komponen utama pertama memiliki nilai paling besar dibandingkan komponen lainnya. Hal ini menandakan bahwa sebagian besar variasi data dapat dijelaskan oleh satu komponen utama saja.
eigen_res$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.09219130 0.06060081 -0.003107518 0.970452736 -0.156055543
## [2,] -0.99396947 0.03294359 0.029422161 -0.090947728 -0.005846681
## [3,] 0.02852534 -0.07545079 0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134 0.096256185 0.172774447 0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817 0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490 0.024103802 -0.136626137 0.089770986
## [,6]
## [1,] 0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,] 0.985604940
Dari vektor eigen, komponen utama pertama didominasi oleh variabel SP-6, sehingga variabel ini menjadi faktor utama dalam membentuk pola data, sedangkan variabel lain hanya memberikan kontribusi tambahan yang lebih kecil.