Tujuan dari dilakukannya analisis adalah untuk memahami karakteristik dataset SIRTUIN6 secara multivariat dimana analisis ini melibatkan pemanfaatan aljabar matriks untuk menghitung vektor rata-rata, matriks varians-kovarians, dan matriks korelasi guna melihat hubungan antar fitur molekuler dalam dataset.
##Import Data
# Set working directory (sesuaikan dengan lokasi file)
setwd("C:/Analisis Data Multivariat")
# Import dataset
data <- read.csv("SIRTUIN6.csv")
# Melihat struktur data
str(data)
## 'data.frame': 100 obs. of 7 variables:
## $ SC.5 : num 0.541 0.815 0.734 0.625 0.46 ...
## $ SP.6 : num 7.64 6.59 6.86 7.01 4.93 ...
## $ SHBd : num 0.162 0 0 0.45 0.449 ...
## $ minHaaCH: num 0.445 0.497 0.508 0.484 0.482 ...
## $ maxwHBa : num 2.21 2 1.89 2.03 2.06 ...
## $ FMF : num 0.468 0.415 0.4 0.5 0.537 ...
## $ Class : chr "High_BFE" "High_BFE" "High_BFE" "High_BFE" ...
# Menampilkan 6 data pertama
head(data)
## SC.5 SP.6 SHBd minHaaCH maxwHBa FMF Class
## 1 0.540936 7.64192 0.162171 0.445270 2.20557 0.467742 High_BFE
## 2 0.815332 6.59011 0.000000 0.497445 2.00314 0.415385 High_BFE
## 3 0.734399 6.85522 0.000000 0.507748 1.88590 0.400000 High_BFE
## 4 0.624557 7.00949 0.450300 0.483648 2.02757 0.500000 High_BFE
## 5 0.460290 4.92643 0.448998 0.482293 2.06438 0.536585 High_BFE
## 6 0.739251 5.30234 0.000000 0.503995 1.84017 0.428571 High_BFE
Dataset ini berisi beberapa variabel numerik, seperti SC-5, SP-6, SHBd, minHaaCH, maxwHBa, FMF, dan satu variabel berkategori Class. Untuk analisis matriks, hanya menggunakan variabel numerik.
data_num <- data[,1:6]
cor_matrix <- cor(data_num)
cor_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa FMF
## SC.5 1.00000000 0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP.6 0.66208234 1.00000000 -0.11309294 0.1956995 0.08952777 0.5798669
## SHBd -0.10165734 -0.11309294 1.00000000 0.2325906 0.04922928 0.0525741
## minHaaCH 0.11014501 0.19569946 0.23259056 1.0000000 0.46076976 0.2582501
## maxwHBa -0.08366394 0.08952777 0.04922928 0.4607698 1.00000000 0.1898255
## FMF 0.18169903 0.57986685 0.05257410 0.2582501 0.18982546 1.0000000
Matriks korelasi digunakan untuk melihat kekuatan hubungan antar variabel dalam analisis multivariat, yaitu analisis yang dapat mengevaluasi banyak variabel sekaligus untuk menemukan keterkaitannya.Jika ada variabel dengan korelasi tinggi (>0.8), artinya kemungkinan mengandung informasi yang mirip.
cov_matrix <- cov(data_num)
cov_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa
## SC.5 0.038073191 0.18129548 -0.006730516 0.002986591 -0.008537740
## SP.6 0.181295476 1.96938510 -0.053851871 0.038164206 0.065707969
## SHBd -0.006730516 -0.05385187 0.115133039 0.010967139 0.008736117
## minHaaCH 0.002986591 0.03816421 0.010967139 0.019310901 0.033487306
## maxwHBa -0.008537740 0.06570797 0.008736117 0.033487306 0.273520544
## FMF 0.002561709 0.05879780 0.001288960 0.002593040 0.007173265
## FMF
## SC.5 0.002561709
## SP.6 0.058797800
## SHBd 0.001288960
## minHaaCH 0.002593040
## maxwHBa 0.007173265
## FMF 0.005220775
Matriks Variance–Covariance Matrix menunjukkan bahwa: Varians (diagonal) merupakan tingkat penyebaran data tiap variabel, sedangkan, Kovarians adalah arah hubungan antar variabel. Dalam aljabar matriks, data multivariat sering direpresentasikan dalam bentuk matriks agar hubungan antar variabel dapat dianalisis secara bersamaan.
eigen_result <- eigen(cov_matrix)
# Nilai eigen
eigen_result$values
## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384
# Vektor eigen
eigen_result$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.09219130 0.06060081 -0.003107518 0.970452736 -0.156055543
## [2,] -0.99396947 0.03294359 0.029422161 -0.090947728 -0.005846681
## [3,] 0.02852534 -0.07545079 0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134 0.096256185 0.172774447 0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817 0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490 0.024103802 -0.136626137 0.089770986
## [,6]
## [1,] 0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,] 0.985604940
Jika A adalah matriks n×n, maka vektor tidak nol x disebut vektor eigen apabila memenuhi persamaan: 𝐴 𝑥 = 𝜆 𝑥 Ax=λx di mana λ adalah nilai eigen. Nilai eigen menyatakan nilai karakteristik dari sebuah matriks, sedangkan vektor eigen menunjukkan arah utama perubahan data. Nilai eigen terbesar menjelaskan variasi data paling besar yang digunakan dalam teknik seperti PCA (Principal Component Analysis) untuk reduksi dimensi.
Berdasarkan analisis yang telah dilakukan, matriks korelasi menunjukkan adanya hubungan antar variabel numerik sehingga dapat membantu mengidentifikasi variabel yang memiliki keterkaitan kuat. Matriks variance–covariance memberikan informasi mengenai tingkat penyebaran data serta arah hubungan antar variabel, sehingga membantu dalam memahami karakteristik data secara keseluruhan. Selain itu, nilai eigen dan vektor eigen menggambarkan karakteristik utama dari matriks, di mana nilai eigen terbesar menunjukkan komponen yang paling berpengaruh dalam menjelaskan variasi data, sedangkan vektor eigen menunjukkan arah utama penyebaran data. Dengan demikian, ketiga analisis ini berperan penting dalam memahami struktur data multivariat dan dapat menjadi dasar untuk analisis lanjutan seperti reduksi dimensi.