Penjelasan Dataset

Dataset SIRTUIN6 Small Molecules berisi 100 molekul kecil yang diukur dengan 6 deskriptor numerik untuk membantu menentukan kemampuan mereka mengikat atau menghambat protein SIRT6. Enam fitur ini dipilih dari ratusan deskriptor awal dengan metode seleksi sehingga hanya yang paling informatif yang digunakan. Dataset ini juga memiliki kolom target berupa kategori kelas yang menunjukkan kelompok tiap molekul, tetapi sesuai instruksi tugas kolom tersebut tidak digunakan dalam perhitungan multivariat.

Import Data

Dataset SIRTUIN6 Small Molecules diimpor ke dalam RStudio menggunakan file berformat CSV (.csv). Proses impor data dilakukan menggunakan fungsi read_csv() dari library readr, yang secara otomatis mampu mengenali pemisah data serta tipe variabel pada setiap kolom.

library(readr)
SIRTUIN6 <- read_csv("SIRTUIN6.csv")
## Rows: 100 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Class
## dbl (6): SC-5, SP-6, SHBd, minHaaCH, maxwHBa, FMF
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
str(SIRTUIN6)
## spc_tbl_ [100 × 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ SC-5    : num [1:100] 0.541 0.815 0.734 0.625 0.46 ...
##  $ SP-6    : num [1:100] 7.64 6.59 6.86 7.01 4.93 ...
##  $ SHBd    : num [1:100] 0.162 0 0 0.45 0.449 ...
##  $ minHaaCH: num [1:100] 0.445 0.497 0.508 0.484 0.482 ...
##  $ maxwHBa : num [1:100] 2.21 2 1.89 2.03 2.06 ...
##  $ FMF     : num [1:100] 0.468 0.415 0.4 0.5 0.537 ...
##  $ Class   : chr [1:100] "High_BFE" "High_BFE" "High_BFE" "High_BFE" ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   `SC-5` = col_double(),
##   ..   `SP-6` = col_double(),
##   ..   SHBd = col_double(),
##   ..   minHaaCH = col_double(),
##   ..   maxwHBa = col_double(),
##   ..   FMF = col_double(),
##   ..   Class = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>

Setelah data berhasil diimpor, fungsi str() digunakan untuk melihat struktur dataset, termasuk jumlah baris, jumlah kolom, serta tipe data dari masing-masing variabel.

Pengambilan Variabel Numerik

Karena analisis korelasi, kovarians, serta perhitungan eigen hanya dapat dilakukan pada data numerik, maka hanya variabel numerik yang dipilih untuk analisis selanjutnya. Dengan begitu, kolom target tidak digunakan dalam perhitungan.

SIRTUIN6_numeric <- SIRTUIN6[sapply(SIRTUIN6, is.numeric)]
str(SIRTUIN6_numeric)
## tibble [100 × 6] (S3: tbl_df/tbl/data.frame)
##  $ SC-5    : num [1:100] 0.541 0.815 0.734 0.625 0.46 ...
##  $ SP-6    : num [1:100] 7.64 6.59 6.86 7.01 4.93 ...
##  $ SHBd    : num [1:100] 0.162 0 0 0.45 0.449 ...
##  $ minHaaCH: num [1:100] 0.445 0.497 0.508 0.484 0.482 ...
##  $ maxwHBa : num [1:100] 2.21 2 1.89 2.03 2.06 ...
##  $ FMF     : num [1:100] 0.468 0.415 0.4 0.5 0.537 ...
summary(SIRTUIN6_numeric)
##       SC-5              SP-6            SHBd           minHaaCH     
##  Min.   :0.08333   Min.   :2.092   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.28212   1st Qu.:3.345   1st Qu.:0.0000   1st Qu.:0.4298  
##  Median :0.39335   Median :4.107   Median :0.3734   Median :0.4677  
##  Mean   :0.42049   Mean   :4.429   Mean   :0.3565   Mean   :0.4436  
##  3rd Qu.:0.53295   3rd Qu.:5.303   3rd Qu.:0.4825   3rd Qu.:0.5059  
##  Max.   :0.91855   Max.   :7.642   Max.   :1.4650   Max.   :0.7207  
##     maxwHBa           FMF        
##  Min.   :0.000   Min.   :0.1538  
##  1st Qu.:1.840   1st Qu.:0.3265  
##  Median :2.020   Median :0.3760  
##  Mean   :1.920   Mean   :0.3762  
##  3rd Qu.:2.162   3rd Qu.:0.4232  
##  Max.   :3.779   Max.   :0.5366

A. Correlation Matrix

Matriks korelasi digunakan untuk melihat hubungan linear antar variabel numerik dalam dataset. Nilai korelasi menunjukkan seberapa kuat dan searah hubungan antara dua variabel. Nilai korelasi berada pada rentang -1 sampai 1, di mana nilai mendekati 1 menunjukkan hubungan positif yang kuat, nilai mendekati -1 menunjukkan hubungan negatif yang kuat, sedangkan nilai mendekati 0 menunjukkan hubungan yang lemah atau tidak ada hubungan linear.

cor_matrix <- cor(SIRTUIN6_numeric)
cor_matrix
##                 SC-5        SP-6        SHBd  minHaaCH     maxwHBa       FMF
## SC-5      1.00000000  0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP-6      0.66208234  1.00000000 -0.11309294 0.1956995  0.08952777 0.5798669
## SHBd     -0.10165734 -0.11309294  1.00000000 0.2325906  0.04922928 0.0525741
## minHaaCH  0.11014501  0.19569946  0.23259056 1.0000000  0.46076976 0.2582501
## maxwHBa  -0.08366394  0.08952777  0.04922928 0.4607698  1.00000000 0.1898255
## FMF       0.18169903  0.57986685  0.05257410 0.2582501  0.18982546 1.0000000

Hubungan paling kuat terlihat antara variabel SC-5 dan SP-6 dengan nilai korelasi sebesar 0,66. Nilai ini menunjukkan adanya hubungan positif yang cukup kuat, sehingga ketika nilai SC-5 meningkat, nilai SP-6 cenderung ikut meningkat. Selain itu, variabel SP-6 juga memiliki korelasi positif yang cukup tinggi dengan FMF, yaitu sebesar 0,58, yang menunjukkan adanya keterkaitan yang cukup jelas antara kedua variabel tersebut. Hubungan dengan tingkat sedang terlihat antara minHaaCH dan maxwHBa dengan nilai korelasi sekitar 0,46, yang menunjukkan bahwa peningkatan salah satu variabel cenderung diikuti oleh variabel lainnya, meskipun tidak terlalu kuat. Sebagian besar pasangan variabel lainnya memiliki nilai korelasi yang rendah dan mendekati nol, seperti hubungan SC-5 dengan SHBd dan SP-6 dengan SHBd, yang menandakan adanya hubungan linear yang lemah. Jadi, hasil matriks korelasi menunjukkan bahwa sebagian besar variabel dalam dataset SIRTUIN6 tidak memiliki hubungan linear yang kuat, kecuali beberapa pasangan variabel tertentu seperti SC-5 dengan SP-6 dan SP-6 dengan FMF.

B. Variance-Covariance Matrix

Matriks varians-kovarians digunakan untuk melihat seberapa besar penyebaran data pada setiap variabel serta hubungan perubahan antar variabel numerik. Nilai varians terletak pada diagonal utama matriks dan menunjukkan tingkat keragaman masing-masing variabel. Sementara itu, nilai kovarians berada di luar diagonal dan menunjukkan arah hubungan antar dua variabel. Kovarians bernilai positif menunjukkan bahwa kedua variabel cenderung meningkat atau menurun bersama, sedangkan kovarians bernilai negatif menunjukkan kecenderungan perubahan yang berlawanan.

cov_matrix <- cov(SIRTUIN6_numeric)
cov_matrix
##                  SC-5        SP-6         SHBd    minHaaCH      maxwHBa
## SC-5      0.038073191  0.18129548 -0.006730516 0.002986591 -0.008537740
## SP-6      0.181295476  1.96938510 -0.053851871 0.038164206  0.065707969
## SHBd     -0.006730516 -0.05385187  0.115133039 0.010967139  0.008736117
## minHaaCH  0.002986591  0.03816421  0.010967139 0.019310901  0.033487306
## maxwHBa  -0.008537740  0.06570797  0.008736117 0.033487306  0.273520544
## FMF       0.002561709  0.05879780  0.001288960 0.002593040  0.007173265
##                  FMF
## SC-5     0.002561709
## SP-6     0.058797800
## SHBd     0.001288960
## minHaaCH 0.002593040
## maxwHBa  0.007173265
## FMF      0.005220775

Variabel SP-6 memiliki nilai varians paling besar, yaitu sekitar 1,97, yang menunjukkan bahwa data pada variabel ini memiliki tingkat penyebaran yang paling tinggi dibandingkan variabel lainnya. Sebaliknya, variabel seperti FMF dan minHaaCH memiliki nilai varians yang relatif kecil, sehingga sebaran datanya lebih sempit. Nilai kovarians yang berada di luar diagonal menunjukkan hubungan perubahan antar variabel. Kovarians positif, seperti antara SC-5 dan SP-6 serta SP-6 dan maxwHBa, menunjukkan bahwa kedua variabel tersebut cenderung meningkat atau menurun secara bersamaan. Sementara itu, kovarians negatif, yaitu antara SC-5 dan SHBd serta SP-6 dan SHBd, menunjukkan kecenderungan perubahan yang berlawanan arah.

C. Eigen value dan eigen vector

Eigen value dan eigen vector diperoleh dari matriks varians–kovarians untuk melihat struktur utama data. Eigen value menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh setiap komponen utama, di mana komponen dengan eigen value terbesar dianggap paling penting karena memuat informasi paling dominan. Sementara itu, eigen vector menunjukkan arah serta kontribusi masing-masing variabel terhadap komponen utama tersebut. Variabel dengan nilai absolut eigen vector yang lebih besar memiliki pengaruh yang lebih kuat dalam membentuk komponen utama.

eigen_result <- eigen(cov(SIRTUIN6_numeric))
eigen_result$values
## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384
eigen_result$vectors
##             [,1]        [,2]         [,3]         [,4]         [,5]
## [1,] -0.09219130  0.06060081 -0.003107518  0.970452736 -0.156055543
## [2,] -0.99396947  0.03294359  0.029422161 -0.090947728 -0.005846681
## [3,]  0.02852534 -0.07545079  0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134  0.096256185  0.172774447  0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817  0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490  0.024103802 -0.136626137  0.089770986
##              [,6]
## [1,]  0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,]  0.985604940

Hasil eigen value menunjukkan bahwa komponen utama pertama memiliki nilai paling besar, yaitu sekitar 1,99, sehingga komponen ini menjelaskan variasi data paling dominan dibandingkan komponen lainnya. Komponen kedua dan ketiga memiliki eigen value yang jauh lebih kecil yaitu 0,28 dan 0,11, artinya kontribusinya terhadap variasi data mulai menurun. Sementara itu, komponen keempat hingga keenam memiliki eigen value yang sangat kecil, sehingga hanya menjelaskan sedikit variasi data.

Eigen vector menunjukkan kontribusi masing-masing variabel terhadap setiap komponen utama. Pada komponen pertama, variabel SP-6 memiliki bobot paling besar, sehingga variabel ini menjadi faktor yang paling berpengaruh dalam pembentukan komponen utama pertama. Pada komponen kedua, variabel maxwHBa terlihat memberikan kontribusi yang dominan. Sementara itu, variabel SHBd berperan besar pada komponen ketiga. Hal ini menunjukkan bahwa setiap komponen utama mencerminkan kombinasi variabel yang berbeda, dengan variabel tertentu memiliki pengaruh yang lebih dominan pada komponen tertentu.

Kesimpulan

Berdasarkan hasil analisis multivariat pada dataset SIRTUIN6 Small Molecules, dapat disimpulkan bahwa sebagian besar variabel numerik tidak memiliki hubungan linear yang kuat, meskipun terdapat beberapa pasangan variabel yang menunjukkan keterkaitan cukup jelas, seperti SC-5 dengan SP-6 dan SP-6 dengan FMF. Matriks varians-kovarians menunjukkan perbedaan tingkat penyebaran data antar variabel, dengan SP-6 memiliki variasi terbesar. Selain itu, hasil analisis eigen value dan eigen vector menunjukkan bahwa komponen utama pertama merupakan komponen yang paling dominan dalam menjelaskan variasi data, dengan beberapa variabel tertentu memberikan kontribusi yang lebih besar.