Tugas Analisis Multivariat

Import Data

data <- read.csv("SIRTUIN6.csv", header = TRUE)
str(data)

## 'data.frame':    100 obs. of  7 variables:
##  $ SC.5    : num  0.541 0.815 0.734 0.625 0.46 ...
##  $ SP.6    : num  7.64 6.59 6.86 7.01 4.93 ...
##  $ SHBd    : num  0.162 0 0 0.45 0.449 ...
##  $ minHaaCH: num  0.445 0.497 0.508 0.484 0.482 ...
##  $ maxwHBa : num  2.21 2 1.89 2.03 2.06 ...
##  $ FMF     : num  0.468 0.415 0.4 0.5 0.537 ...
##  $ Class   : chr  "High_BFE" "High_BFE" "High_BFE" "High_BFE" ...

Penjelasan: Dataset tersebut terdiri dari 100 observasi dan 7 variabel. Terdapat satu variabel yang berupa karakter, yaitu Class dan enam variabel lainnya yang bersifat numerik.

Seleksi variabel (tanpa class/target)

data_num <- data[, sapply(data, is.numeric)]
str(data_num)

## 'data.frame':    100 obs. of  6 variables:
##  $ SC.5    : num  0.541 0.815 0.734 0.625 0.46 ...
##  $ SP.6    : num  7.64 6.59 6.86 7.01 4.93 ...
##  $ SHBd    : num  0.162 0 0 0.45 0.449 ...
##  $ minHaaCH: num  0.445 0.497 0.508 0.484 0.482 ...
##  $ maxwHBa : num  2.21 2 1.89 2.03 2.06 ...
##  $ FMF     : num  0.468 0.415 0.4 0.5 0.537 ...

Penjelasan: Variabel Class tidak diperlukan karena analisis matriks hanya dapat digunakan pada data numerik.

a. Correlation Matrix

cor_matrix <- cor(data_num)
round(cor_matrix, 3)

##            SC.5   SP.6   SHBd minHaaCH maxwHBa   FMF
## SC.5      1.000  0.662 -0.102    0.110  -0.084 0.182
## SP.6      0.662  1.000 -0.113    0.196   0.090 0.580
## SHBd     -0.102 -0.113  1.000    0.233   0.049 0.053
## minHaaCH  0.110  0.196  0.233    1.000   0.461 0.258
## maxwHBa  -0.084  0.090  0.049    0.461   1.000 0.190
## FMF       0.182  0.580  0.053    0.258   0.190 1.000

Penjelasan: Correlation matrix menunjukkan hubungan linier antara variabel numerik yang ada dalam dataset, dengan nilai dari -1 sampai 1. Dimana nilai -1 artinya hubungan negatif sempurna sedangkan nilai 1 artinya hubungan positif sempurna, dan nilai yang mendekati 0 artinya hubungan linier lemah. Matrix ini bersifat simetris, dengan diagonal utama bernilai 1, karena korelasi antara variabel dengan dirinya sendiri. Interpretasi: Jika terdapat dua descriptor memiliki correlation yang tinggi/besar, maka keduanya mengandung informasi yang serupa.

b. Variance-Covariance Matrix

cov_matrix <- cov(data_num)
round(cov_matrix, 3)

##            SC.5   SP.6   SHBd minHaaCH maxwHBa   FMF
## SC.5      0.038  0.181 -0.007    0.003  -0.009 0.003
## SP.6      0.181  1.969 -0.054    0.038   0.066 0.059
## SHBd     -0.007 -0.054  0.115    0.011   0.009 0.001
## minHaaCH  0.003  0.038  0.011    0.019   0.033 0.003
## maxwHBa  -0.009  0.066  0.009    0.033   0.274 0.007
## FMF       0.003  0.059  0.001    0.003   0.007 0.005

Penjelasan: Menunjukkan sejauh mana tingkat penyebaran data dan hubungan antara variabel dengan menggunakan satuan asli data. Dimana terdapat elemen diagonal yang menunjukkan variance dari setiap variabel sedangkan elemen non-diagonal menunjukkan covariance antar dua variabel, dan covariance positif menunjukkan kedua variabel cenderung meningkat bersamaan. Interpretasi: Variance yang tinggi/besar menunjukkan bahwa variabel memiliki penyebaran data yang luas dan covariance yang tinggi/besar menunjukkan adanya hubungan yang kuat antara variabel, namun nilainya tergantung pada skala.

c. Eigen Value & Eigen Vector

eigen_result <- eigen(cov_matrix)

#Eigen values
eigen_result$values

## [1] 1.992769556 0.276942728 0.113877882 0.020953542 0.013224463 0.002875384

#Eigen vectors
eigen_result$vectors

##             [,1]        [,2]         [,3]         [,4]         [,5]
## [1,] -0.09219130  0.06060081 -0.003107518  0.970452736 -0.156055543
## [2,] -0.99396947  0.03294359  0.029422161 -0.090947728 -0.005846681
## [3,]  0.02852534 -0.07545079  0.990744881 -0.004387236 -0.107950230
## [4,] -0.01988516 -0.12606134  0.096256185  0.172774447  0.969390992
## [5,] -0.03789685 -0.98654030 -0.087766817  0.037590405 -0.127206548
## [6,] -0.02966771 -0.01990490  0.024103802 -0.136626137  0.089770986
##              [,6]
## [1,]  0.147264400
## [2,] -0.042048512
## [3,] -0.015670467
## [4,] -0.069842391
## [5,] -0.002121028
## [6,]  0.985604940

Penjelasan: Eigen value menunjukkan besarnya variasi data yang dapat dijelaskan oleh setiap komponen utama, sedangkan Eigen vector menunjukkan arah kombinasi linier variabel yang membentuk komponen utama. Interpretasi: Jika eigen value tinggi maka komponen sangat signifikan, eigen value kecil maka kontribusi variasi nya kecil. Sedangkan pada setiap kolom eigen vector merepresentasikan satu arah utama variasi data dan nilai di dalam eigen vector menunjukkan kontribusi dari setiap variabel.

Kesimpulan

Correlation Matrix menunjukkan hubungan linear di antara variabel-variabel numerik.
Variance-Covariance Matrix memberikan gambaran tentang distribusi data dan keterkaitan antara variabel dalam satuan aslinya.
Eigen value dan Eigen Vector menunjukkan pola variasi data serta arah utama dalam pembentukan komponen.