Analisis multivariat merupakan teknik statistik yang digunakan untuk menganalisis lebih dari satu variabel secara simultan. Tujuan dari analisis ini adalah untuk memahami hubungan antar variabel serta struktur variasi data. Pada tugas ini, analisis multivariat dilakukan menggunakan dataset SIRTUIN6 dengan pendekatan matriks korelasi, matriks varians-kovarians, serta analisis eigen value dan eigen vector
Dataset SIRTUIN6 diimpor ke dalam R dan dipilih hanya variabel numerik. Pemilihan variabel numerik dilakukan karena analisis multivariat seperti korelasi, kovarians, dan eigen hanya dapat diterapkan pada data numerik. Berdasarkan hasil struktur data yang ditampilkan, seluruh variabel yang digunakan bersifat numerik sehingga memenuhi syarat untuk dilakukan analisis multivariat
data <- read.csv("SIRTUIN6.csv", header = TRUE)
data_num <- data[, sapply(data, is.numeric)]
str(data_num)
## 'data.frame': 100 obs. of 6 variables:
## $ SC.5 : num 0.541 0.815 0.734 0.625 0.46 ...
## $ SP.6 : num 7.64 6.59 6.86 7.01 4.93 ...
## $ SHBd : num 0.162 0 0 0.45 0.449 ...
## $ minHaaCH: num 0.445 0.497 0.508 0.484 0.482 ...
## $ maxwHBa : num 2.21 2 1.89 2.03 2.06 ...
## $ FMF : num 0.468 0.415 0.4 0.5 0.537 ...
Matriks korelasi digunakan untuk mengetahui hubungan linear antar variabel dalam dataset. Nilai korelasi berada pada rentang -1 hingga 1, di mana nilai mendekati 1 menunjukkan hubungan positif yang kuat, nilai mendekati -1 menunjukkan hubungan negatif yang kuat, dan nilai mendekati 0 menunjukkan hubungan yang lemah antar variabel
cor_matrix <- cor(data_num)
cor_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa FMF
## SC.5 1.00000000 0.66208234 -0.10165734 0.1101450 -0.08366394 0.1816990
## SP.6 0.66208234 1.00000000 -0.11309294 0.1956995 0.08952777 0.5798669
## SHBd -0.10165734 -0.11309294 1.00000000 0.2325906 0.04922928 0.0525741
## minHaaCH 0.11014501 0.19569946 0.23259056 1.0000000 0.46076976 0.2582501
## maxwHBa -0.08366394 0.08952777 0.04922928 0.4607698 1.00000000 0.1898255
## FMF 0.18169903 0.57986685 0.05257410 0.2582501 0.18982546 1.0000000
Matriks varians-kovarians digunakan untuk melihat besar variasi masing-masing variabel serta hubungan antar variabel dalam satuan aslinya. Elemen diagonal pada matriks ini menunjukkan nilai varians setiap variabel, sedangkan elemen di luar diagonal menunjukkan nilai kovarians antar variabel
cov_matrix <- cov(data_num)
cov_matrix
## SC.5 SP.6 SHBd minHaaCH maxwHBa
## SC.5 0.038073191 0.18129548 -0.006730516 0.002986591 -0.008537740
## SP.6 0.181295476 1.96938510 -0.053851871 0.038164206 0.065707969
## SHBd -0.006730516 -0.05385187 0.115133039 0.010967139 0.008736117
## minHaaCH 0.002986591 0.03816421 0.010967139 0.019310901 0.033487306
## maxwHBa -0.008537740 0.06570797 0.008736117 0.033487306 0.273520544
## FMF 0.002561709 0.05879780 0.001288960 0.002593040 0.007173265
## FMF
## SC.5 0.002561709
## SP.6 0.058797800
## SHBd 0.001288960
## minHaaCH 0.002593040
## maxwHBa 0.007173265
## FMF 0.005220775
Eigen value dan eigen vector digunakan untuk mengetahui struktur variasi data berdasarkan matriks varians-kovarians. Eigen value menunjukkan besarnya variasi data yang dapat dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan arah pembentukan komponen utama yang merupakan kombinasi linear dari variabel-variabel asal
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384
eigen_result$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -0.09219130 0.06060081 -0.003107518 0.970452736 -0.156055543
## [2,] -0.99396947 0.03294359 0.029422161 -0.090947728 -0.005846681
## [3,] 0.02852534 -0.07545079 0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134 0.096256185 0.172774447 0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817 0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490 0.024103802 -0.136626137 0.089770986
## [,6]
## [1,] 0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,] 0.985604940
Proporsi variansi digunakan untuk mengetahui persentase informasi yang dapat dijelaskan oleh masing-masing komponen utama. Semakin besar proporsi variansi pada komponen utama tertentu, maka semakin besar kontribusinya dalam merepresentasikan keseluruhan data
proporsi_variansi <- eigen_result$values / sum(eigen_result$values)
proporsi_variansi
## [1] 0.823239569 0.114408719 0.047044465 0.008656187 0.005463201 0.001187859
cumsum(proporsi_variansi)
## [1] 0.8232396 0.9376483 0.9846928 0.9933489 0.9988121 1.0000000
Berdasarkan hasil analisis multivariat pada dataset SIRTUIN6, dapat disimpulkan bahwa hubungan antar variabel dapat dianalisis menggunakan matriks korelasi dan matriks varians-kovarians. Analisis eigen value dan eigen vector memberikan gambaran mengenai struktur variasi data yang dapat digunakan sebagai dasar untuk analisis lanjutan seperti Principal Component Analysis (PCA)