Pengenalan Eigenvalue, Eigenvector, Variance-Covariance Matrix, dan Correlation Matrix dalam R

EIGENVALUE DAN EIGENVECTOR

Apa itu nilai eigen?

Dalam bahasa, ‘eigen’ dapat diartikan sebagai ‘karakteristik atau tepat’. Nilai eigen sering diartikan sebagai nilai skalar yang menempel pada suatu matriks. Pengertian tersebut kurang tepat jika melihat syarat yang harus dipenuhi untuk bisa dinamakan sebagai nilai eigen. Misalkan A adalah suatu matriks n x n. Skalar λ disebut suatu nilai eigen atau nilai karakteristik dari A jika terdapat suatu vektor tak nol x sehingga Ax = λx. Nilai eigen matriks A yang berukuran n x n dengan Ax = λx ditulis kembali menjadi Ax = λIx atau secara ekuivalen (λI A)x = 0.

Supaya λ bisa dikatakan sebagai nilai eigen, maka persamaan Ax = λIx harus memiliki selesaian tak nol. Sedangkan, persamaan tersebut akan mempunyai selesaian tak nol jika dan hanya jika det (λI A) = 0. Dengan demikian, maka nilai eigen dapat diartikan sebagai skalar yang menempel pada sebuah matriks dengan persamaan yang mempunyai selesaian tak nol.

Nilai eigen sering dinotasikan sebagai lamda (λ) dengan persamaan :

Ax = λx

Dimana :

A = Matriks n x n

x = Vektor Eigen

λ = Nilai Eigen

Apa itu vector eigen?

Vektor eigen tentunya berhubungan erat dengan nilai eigen, yang mana vektor eigen adalah sebuah vektor tak nol yang jika matriks tertentu dikalikan, hasilnya sama dengan kelipatan skalar vektor tersebut. Misalkan A adalah matriks persegi n x n, dan jika x adalah vektor bukan nol, maka hasil perkalian matriks A dengan vektor x didefinisikan sebagai hasil perkalian besaran skalar λ yang merupakan nilai eigen dari imatriks A.

Vektor eigen sering dinotasikan dengan :

A = λx

Dimana :

A = Matriks n x n

λ = Nilai Eigen

x = Vektor Eigen

Untuk apa vektor dan nilai eigen digunakan?

· Nilai eigen dan vektor eigen digunakan untuk mereduksi operasi linear guna memisahkan atau menyederhanakan masalah

· Vektor eigen Memberi tahu seberapa besar varians yang ada pada data dalam arah itu, sedangkan nilai eigen memberi tahu kita seberapa besar penyebaran data.

Referensi :

· Solichah, Novita Imroatus (2013) Nilai eigen dan vektor eigen matriks Monge dalam aljabar max-plus. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

· https://byjus.com/maths/eigen-values/

VARIANCE-COVARIANCE MATRIX

Matriks Varian-Kovarian adalah representasi matematis yang menggambarkan variabilitas dan interaksi antara sejumlah variabel dalam suatu dataset. Matriks ini berperan penting dalam berbagai analisis statistik multivariat, seperti Analisis Komponen Utama (Principal Component Analysis/PCA) dan Analisis Regresi.

Definisi dan Struktur Matriks Varian-Kovarian

Matriks Varian-Kovarian adalah matriks persegi yang elemen-elemennya terdiri dari variansi di sepanjang diagonal utama dan kovariansi di luar diagonal.

Variansi mengukur seberapa besar penyebaran data dari rata-rata untuk masing-masing variabel. Kovariansi mengukur derajat hubungan linear antara dua variabel.

Secara umum, untuk dataset dengan p variabel, matriks Varian-Kovarian (Σ) memiliki struktur sebagai berikut:

Peran Matriks Varian-Kovarian dalam Analisis Statistik

1. Analisis Komponen Utama (PCA)

PCA menggunakan matriks varian-kovarian untuk mengidentifikasi kombinasi linear dari variabel asli yang menjelaskan variabilitas terbesar dalam data. Dengan demikian, PCA membantu mereduksi dimensi data tanpa kehilangan informasi penting.

2. Analisis Regresi

Dalam regresi linear berganda, matriks varian-kovarian digunakan untuk memahami hubungan antara variabel prediktor dan respon, serta untuk mendeteksi masalah seperti multikolinearitas.

Sensitivitas terhadap Pencilan dan Pendekatan Robust

Penting untuk dicatat bahwa estimasi matriks varian-kovarian sangat sensitif terhadap pencilan (outliers). Kehadiran pencilan dapat mengakibatkan estimasi yang bias, yang pada gilirannya mempengaruhi hasil analisis seperti PCA. Untuk mengatasi hal ini, pendekatan robust seperti Minimum Covariance Determinant (MCD) dapat digunakan. MCD bertujuan untuk meminimalkan pengaruh pencilan dengan mencari subset data yang memiliki determinan kovariansi terkecil, sehingga menghasilkan estimasi yang lebih andal.

Contoh kode untuk Variance-Covariance pada dataset

# Membuat data frame dengan 4 variabel: Age, Debt, Income, dan YearsEmployed

data <- data.frame(

Age = c(30.83, 58.67, 24.50, 27.83, 20.17),

Debt = c(0.000, 4.460, 0.500, 1.540, 5.625),

Income = c(0, 560, 824, 3, 0),

YearsEmployed = c(1.25, 3.04, 1.50, 3.75, 1.71)

)

# Menghitung matriks varians-kovarians

var_cov_matrix <- cov(data)

# Menampilkan hasil matriks varians-kovarians

print("Variance-Covariance Matrix:")

print(var_cov_matrix)

OUPUT

[1] "Variance-Covariance Matrix:"

> print(var_cov_matrix)

Age Debt Income YearsEmployed

Age 231.361400 9.345663 2046.9725 6.999375

Debt 9.345663 6.187675 -112.3137 0.605225

Income 2046.972500 -112.313750 151957.8000 -42.775000

YearsEmployed 6.999375 0.605225 -42.7750 1.182050

Referensi :

· Irwan Sujatmiko, Susanti Linuwih, Dwi Atmono AW. "Analisis Komponen Utama dengan Menggunakan Matrik Varian Kovarian yang Robust." Jurnal Matematika, Vol. 2, No. 8, 2005. https://ejournal.undip.ac.id/index.php/matematika/article/view/1365

· Wa Ode Sitti Amni Amni, Andi Kresna Jaya, Nirwan Ilyas. "Perbandingan Analisis Komponen Utama Robust Minimum Covarian Determinant dengan Least Trimmed Square pada Data Produk Domestik Regional Bruto." Estimasi: Journal of Statistics and Its Application, Vol. 5, No. 2, Juli 2024. https://journal.unhas.ac.id/index.php/ESTIMASI/article/view/32283

CORRELATION MATRIX

Matriks korelasi adalah sebuah matriks simetris yang berisi koefisien korelasi Pearson antara setiap pasangan variabel dalam dataset. Matriks ini digunakan untuk memahami sejauh mana dua variabel berkorelasi satu sama lain dalam skala dari -1 hingga 1. Matriks korelasi R dari p variabel dapat dituliskan sebagai berikut:

di mana adalah koefisien korelasi Pearson antara variabel dan , yang dihitung dengan rumus:

Keterangan:

Covadalah kovarians antara variabel dan , yang mengukur sejauh mana kedua variabel berubah bersama.

σ dan σ adalah standar deviasi masing-masing variabel.

Nilai korelasi selalu berada dalam rentang [−1,1].

Kovarians mengukur bagaimana dua variabel bergerak bersama, tetapi karena memiliki satuan yang bergantung pada unit variabel, korelasi lebih disukai karena nilainya berada dalam rentang -1 hingga 1, sehingga lebih mudah untuk diinterpretasikan.

Sifat Correlation Matrix

Matriks korelasi memiliki beberapa sifat utama yang membuatnya sangat berguna dalam analisis statistik. Pertama, matriks ini simetris, yang berarti . Artinya, hubungan antara dua variabel tetap sama, tidak tergantung pada urutan variabel. Kedua, nilai diagonal dalam matriks korelasi selalu bernilai 1 karena setiap variabel memiliki korelasi sempurna dengan dirinya sendiri .

Penggunaan Correlation Matrix dalam Analisis Data

Matriks korelasi memiliki berbagai aplikasi dalam dunia statistik dan machine learning. Salah satu penggunaannya adalah dalam eksplorasi data, di mana para analis menggunakan heatmap korelasi untuk memahami hubungan antar variabel sebelum melakukan pemodelan prediktif.

Dalam analisis komponen utama (PCA), matriks korelasi digunakan untuk mengubah variabel asli menjadi komponen utama, yang merupakan kombinasi linier dari variabel asli yang menangkap variabilitas terbesar dalam data.

Perbedaan Covariance Matrix dan Correlation Matrix

Meskipun matriks korelasi mirip dengan matriks kovarians, keduanya memiliki perbedaan utama. Matriks kovarians mengukur hubungan antara variabel dalam satuan asli mereka, sehingga hasilnya bergantung pada unit pengukuran. Sebaliknya, matriks korelasi menghilangkan efek skala dan menghasilkan nilai standar dalam rentang -1 hingga 1.

Kode

# Membuat data frame dengan 4 variabel: Age, Debt, Income, dan YearsEmployed

data <- data.frame(

Age = c(30.83, 58.67, 24.50, 27.83, 20.17),

Debt = c(0.000, 4.460, 0.500, 1.540, 5.625),

Income = c(0, 560, 824, 3, 0),

YearsEmployed = c(1.25, 3.04, 1.50, 3.75, 1.71)

)

# Menghitung matriks varians-kovarians

var_cov_matrix <- cov(data)

# Menghitung matriks korelasi

cor_matrix <- cor(data)

# Menampilkan hasil matriks varians-kovarians

print("Variance-Covariance Matrix:")

print(var_cov_matrix)

# Menampilkan hasil matriks korelasi

print("Correlation Matrix:")

print(cor_matrix)

# Menghitung eigenvalues dan eigenvectors dari matriks korelasi

eigen_cor <- eigen(cor_matrix)

# Menampilkan eigenvalues dari matriks korelasi

print("Eigen Values dari Matriks Korelasi:")

print(eigen_cor$values)

# Menampilkan eigenvectors dari matriks korelasi

print("Eigen Vectors dari Matriks Korelasi:")

print(eigen_cor$vectors)

# Memuat library ggplot2 untuk visualisasi scree plot

library(ggplot2)

# Membuat data frame untuk scree plot

eigen_df <- data.frame(

Component = paste0("PC", 1:length(eigen_cor$values)),

Eigenvalue = eigen_cor$values

)

# Membuat scree plot untuk melihat kontribusi masing-masing komponen utama

ggplot(eigen_df, aes(x = Component, y = Eigenvalue)) +

geom_bar(stat = "identity", fill = "steelblue") +

geom_point(size = 3, color = "red") +

geom_line(group = 1, color = "red") +

theme_minimal() +

ggtitle("Scree Plot Eigen Values") +

xlab("Principal Components") +

ylab("Eigen Value") # Label sumbu Y

OUTPUT

[1] "Variance-Covariance Matrix:"

> print(var_cov_matrix)

Age Debt Income YearsEmployed

Age 231.361400 9.345663 2046.9725 6.999375

Debt 9.345663 6.187675 -112.3137 0.605225

Income 2046.972500 -112.313750 151957.8000 -42.775000

YearsEmployed 6.999375 0.605225 -42.7750 1.182050

[1] "Correlation Matrix:"

> print(cor_matrix)

Age Debt Income YearsEmployed

Age 1.0000000 0.2470022 0.3452272 0.4232489

Debt 0.2470022 1.0000000 -0.1158264 0.2237872

Income 0.3452272 -0.1158264 1.0000000 -0.1009278

YearsEmployed 0.4232489 0.2237872 -0.1009278 1.0000000

[1] "Eigen Values dari Matriks Korelasi:"

> print(eigen_cor$values)

[1] 1.6257301 1.2116374 0.7801983 0.3824342

[1] "Eigen Vectors dari Matriks Korelasi:"

> print(eigen_cor$vectors)

[,1] [,2] [,3] [,4]

[1,] 0.6669885 -0.2767578 0.04870403 0.6900431

[2,] 0.4325557 0.4214898 -0.77292363 -0.1945018

[3,] 0.1952799 -0.8163889 -0.20973632 -0.5013838

[4,] 0.5743585 0.2815327 0.59684810 -0.4843800

Referensi : Härdle, Wolfgang Karl, and Léopold Simar. Applied multivariate statistical analysis. Springer Nature, 2019.