Pengenalan
Eigenvalue, Eigenvector, Variance-Covariance Matrix, dan Correlation
Matrix dalam R
Apa
itu nilai eigen?
Dalam bahasa, ‘eigen’
dapat diartikan sebagai ‘karakteristik atau tepat’. Nilai eigen sering
diartikan sebagai nilai skalar yang menempel pada suatu matriks.
Pengertian tersebut kurang tepat jika melihat syarat yang harus dipenuhi
untuk bisa dinamakan sebagai nilai eigen. Misalkan A adalah suatu
matriks n x n. Skalar λ disebut suatu nilai eigen atau nilai
karakteristik dari A jika terdapat suatu vektor tak nol x sehingga Ax =
λx. Nilai eigen matriks A yang berukuran n x n dengan Ax = λx ditulis
kembali menjadi Ax = λIx atau secara ekuivalen (λI A)x =
0.
Supaya λ bisa dikatakan
sebagai nilai eigen, maka persamaan Ax = λIx harus memiliki selesaian
tak nol. Sedangkan, persamaan tersebut akan mempunyai selesaian tak nol
jika dan hanya jika det (λI A) = 0.
Dengan demikian, maka nilai eigen dapat diartikan sebagai skalar
yang menempel pada sebuah matriks dengan persamaan yang mempunyai
selesaian tak nol.
Nilai eigen sering
dinotasikan sebagai lamda (λ) dengan persamaan :
Ax =
λx
Dimana
:
A =
Matriks n x n
x = Vektor
Eigen
λ = Nilai
Eigen
Apa
itu vector eigen?
Vektor
eigen tentunya berhubungan erat dengan nilai eigen, yang mana vektor
eigen adalah sebuah vektor tak nol yang jika matriks tertentu dikalikan,
hasilnya sama dengan kelipatan skalar vektor tersebut. Misalkan A adalah
matriks persegi n x n, dan jika x adalah vektor bukan nol, maka hasil
perkalian matriks A dengan vektor x didefinisikan sebagai hasil
perkalian besaran skalar λ yang merupakan nilai eigen dari imatriks
A.
Vektor eigen sering
dinotasikan dengan :
A =
λx
Dimana
:
A = Matriks n x
n
λ = Nilai
Eigen
x = Vektor
Eigen
Untuk apa vektor dan nilai eigen
digunakan?
·
Nilai
eigen dan vektor eigen digunakan untuk mereduksi operasi linear guna
memisahkan atau menyederhanakan masalah
·
Vektor
eigen Memberi tahu seberapa besar varians yang ada pada data dalam arah
itu, sedangkan nilai eigen memberi tahu kita seberapa besar penyebaran
data.
Referensi :
·
Solichah, Novita Imroatus (2013)
Nilai eigen dan vektor eigen matriks Monge dalam aljabar max-plus.
Undergraduate thesis, Universitas Islam Negeri Maulana Malik
Ibrahim.
·
https://byjus.com/maths/eigen-values/
Matriks
Varian-Kovarian adalah representasi matematis yang menggambarkan
variabilitas dan interaksi antara sejumlah variabel dalam suatu dataset.
Matriks ini berperan penting dalam berbagai analisis statistik
multivariat, seperti Analisis Komponen Utama (Principal Component
Analysis/PCA) dan Analisis Regresi.
Definisi
dan Struktur Matriks Varian-Kovarian
Matriks
Varian-Kovarian adalah matriks persegi yang elemen-elemennya terdiri
dari variansi di sepanjang diagonal utama dan kovariansi di luar
diagonal.
Variansi mengukur seberapa besar
penyebaran data dari rata-rata untuk masing-masing variabel. Kovariansi
mengukur derajat hubungan linear antara dua variabel.
Secara
umum, untuk dataset dengan p
variabel, matriks Varian-Kovarian (Σ) memiliki struktur sebagai
berikut:
Peran
Matriks Varian-Kovarian dalam Analisis Statistik
1.
Analisis
Komponen Utama (PCA)
PCA
menggunakan matriks varian-kovarian untuk mengidentifikasi kombinasi
linear dari variabel asli yang menjelaskan variabilitas terbesar dalam
data. Dengan demikian, PCA membantu mereduksi dimensi data tanpa
kehilangan informasi penting.
2.
Analisis
Regresi
Dalam
regresi linear berganda, matriks varian-kovarian digunakan untuk
memahami hubungan antara variabel prediktor dan respon, serta untuk
mendeteksi masalah seperti multikolinearitas.
Sensitivitas
terhadap Pencilan dan Pendekatan Robust
Penting
untuk dicatat bahwa estimasi matriks varian-kovarian sangat sensitif
terhadap pencilan (outliers).
Kehadiran pencilan dapat mengakibatkan estimasi yang bias, yang pada
gilirannya mempengaruhi hasil analisis seperti PCA. Untuk mengatasi hal
ini, pendekatan robust seperti Minimum Covariance Determinant (MCD)
dapat digunakan. MCD bertujuan untuk meminimalkan pengaruh pencilan
dengan mencari subset data yang memiliki determinan kovariansi terkecil,
sehingga menghasilkan estimasi yang lebih
andal.
Contoh
kode untuk Variance-Covariance pada dataset
#
Membuat data frame dengan 4 variabel: Age, Debt, Income, dan
YearsEmployed
data
<- data.frame(
Age = c(30.83, 58.67, 24.50, 27.83,
20.17),
Debt = c(0.000, 4.460, 0.500, 1.540,
5.625),
Income = c(0, 560, 824, 3,
0),
YearsEmployed = c(1.25, 3.04, 1.50,
3.75, 1.71)
)
#
Menghitung matriks varians-kovarians
var_cov_matrix
<- cov(data)
#
Menampilkan hasil matriks varians-kovarians
print("Variance-Covariance
Matrix:")
print(var_cov_matrix)
OUPUT
[1] "Variance-Covariance
Matrix:"
>
print(var_cov_matrix)
Age Debt Income
YearsEmployed
Age
231.361400 9.345663 2046.9725 6.999375
Debt
9.345663 6.187675 -112.3137 0.605225
Income
2046.972500 -112.313750 151957.8000 -42.775000
YearsEmployed 6.999375 0.605225 -42.7750
1.182050
Referensi
:
·
Irwan
Sujatmiko, Susanti Linuwih, Dwi Atmono AW. "Analisis Komponen Utama
dengan Menggunakan Matrik Varian Kovarian yang Robust."
Jurnal Matematika, Vol. 2, No. 8, 2005. https://ejournal.undip.ac.id/index.php/matematika/article/view/1365
·
Wa
Ode Sitti Amni Amni, Andi Kresna Jaya, Nirwan Ilyas. "Perbandingan
Analisis Komponen Utama Robust Minimum Covarian Determinant dengan Least
Trimmed Square pada Data Produk Domestik Regional Bruto."
Estimasi: Journal of Statistics
and Its Application, Vol. 5, No. 2, Juli 2024.
https://journal.unhas.ac.id/index.php/ESTIMASI/article/view/32283
Matriks korelasi adalah sebuah matriks
simetris yang berisi koefisien korelasi Pearson antara setiap pasangan
variabel dalam dataset. Matriks ini digunakan untuk memahami sejauh mana
dua variabel berkorelasi satu sama lain dalam skala dari -1 hingga 1.
Matriks korelasi R dari
p variabel dapat dituliskan sebagai
berikut:
di
mana adalah koefisien korelasi Pearson
antara variabel
dan
,
yang dihitung dengan rumus:
Keterangan:
Covadalah
kovarians antara variabel
dan
,
yang mengukur sejauh mana kedua variabel berubah
bersama.
σ dan σ
adalah standar deviasi masing-masing
variabel.
Nilai
korelasi selalu berada dalam rentang [−1,1].
Kovarians mengukur bagaimana dua
variabel bergerak bersama, tetapi karena memiliki satuan yang bergantung
pada unit variabel, korelasi lebih disukai karena nilainya berada dalam
rentang -1 hingga 1, sehingga lebih mudah untuk
diinterpretasikan.
Sifat
Correlation Matrix
Matriks korelasi memiliki beberapa sifat
utama yang membuatnya sangat berguna dalam analisis statistik. Pertama,
matriks ini simetris, yang berarti .
Artinya, hubungan antara dua variabel tetap sama, tidak tergantung pada
urutan variabel. Kedua, nilai diagonal dalam matriks korelasi selalu
bernilai 1 karena setiap variabel memiliki korelasi sempurna dengan
dirinya sendiri
.
Penggunaan
Correlation Matrix dalam Analisis Data
Matriks korelasi memiliki berbagai
aplikasi dalam dunia statistik dan machine learning. Salah satu
penggunaannya adalah dalam eksplorasi data, di mana para analis
menggunakan heatmap korelasi untuk memahami hubungan antar variabel
sebelum melakukan pemodelan prediktif.
Dalam analisis komponen utama (PCA),
matriks korelasi digunakan untuk mengubah variabel asli menjadi komponen
utama, yang merupakan kombinasi linier dari variabel asli yang menangkap
variabilitas terbesar dalam data.
Meskipun
matriks korelasi mirip dengan matriks kovarians, keduanya memiliki
perbedaan utama. Matriks kovarians mengukur hubungan antara variabel
dalam satuan asli mereka, sehingga hasilnya bergantung pada unit
pengukuran. Sebaliknya, matriks korelasi menghilangkan efek skala dan
menghasilkan nilai standar dalam rentang -1 hingga 1.
Kode
#
Membuat data frame dengan 4 variabel: Age, Debt, Income, dan
YearsEmployed
data
<- data.frame(
Age = c(30.83, 58.67, 24.50, 27.83,
20.17),
Debt = c(0.000, 4.460, 0.500, 1.540,
5.625),
Income = c(0, 560, 824, 3,
0),
YearsEmployed = c(1.25, 3.04, 1.50,
3.75, 1.71)
)
#
Menghitung matriks varians-kovarians
var_cov_matrix
<- cov(data)
#
Menghitung matriks korelasi
cor_matrix
<- cor(data)
#
Menampilkan hasil matriks varians-kovarians
print("Variance-Covariance
Matrix:")
print(var_cov_matrix)
#
Menampilkan hasil matriks korelasi
print("Correlation
Matrix:")
print(cor_matrix)
#
Menghitung eigenvalues dan eigenvectors dari matriks
korelasi
eigen_cor
<- eigen(cor_matrix)
#
Menampilkan eigenvalues dari matriks korelasi
print("Eigen
Values dari Matriks Korelasi:")
print(eigen_cor$values)
#
Menampilkan eigenvectors dari matriks korelasi
print("Eigen
Vectors dari Matriks Korelasi:")
print(eigen_cor$vectors)
#
Memuat library ggplot2 untuk visualisasi scree plot
library(ggplot2)
#
Membuat data frame untuk scree plot
eigen_df
<- data.frame(
Component = paste0("PC",
1:length(eigen_cor$values)),
Eigenvalue = eigen_cor$values
)
#
Membuat scree plot untuk melihat kontribusi masing-masing komponen
utama
ggplot(eigen_df,
aes(x = Component, y = Eigenvalue)) +
geom_bar(stat = "identity", fill =
"steelblue") +
geom_point(size = 3, color = "red")
+
geom_line(group = 1, color = "red")
+
theme_minimal() +
ggtitle("Scree Plot Eigen Values") +
xlab("Principal Components") +
ylab("Eigen Value") # Label sumbu Y
OUTPUT
[1] "Variance-Covariance
Matrix:"
>
print(var_cov_matrix)
Age Debt Income
YearsEmployed
Age
231.361400 9.345663 2046.9725 6.999375
Debt
9.345663 6.187675 -112.3137 0.605225
Income
2046.972500 -112.313750 151957.8000 -42.775000
YearsEmployed 6.999375 0.605225 -42.7750 1.182050
[1] "Correlation Matrix:"
>
print(cor_matrix)
Age Debt Income
YearsEmployed
Age
1.0000000 0.2470022 0.3452272 0.4232489
Debt
0.2470022 1.0000000
-0.1158264
0.2237872
Income
0.3452272 -0.1158264
1.0000000
-0.1009278
YearsEmployed 0.4232489 0.2237872 -0.1009278 1.0000000
[1] "Eigen Values dari Matriks
Korelasi:"
>
print(eigen_cor$values)
[1] 1.6257301 1.2116374 0.7801983
0.3824342
[1] "Eigen Vectors dari Matriks
Korelasi:"
>
print(eigen_cor$vectors)
[,1] [,2] [,3] [,4]
[1,] 0.6669885 -0.2767578 0.04870403 0.6900431
[2,] 0.4325557
0.4214898 -0.77292363 -0.1945018
[3,] 0.1952799 -0.8163889 -0.20973632
-0.5013838
[4,] 0.5743585 0.2815327 0.59684810
-0.4843800
Referensi
: Härdle,
Wolfgang Karl, and Léopold Simar. Applied multivariate statistical
analysis. Springer Nature, 2019.