Membahas tentang : a) Correlation Matrix b) Variance-Covariance Matrix c) Eigen value dan eigen vector
Berikut langkah langkah dan juga penjelasan output yang dihasilkan.
Data diimpor ke dalam R menggunakan fungsi read.csv() dan disimpan dalam sebuah data frame.
df <- read.csv("Titanic-Dataset.csv")
Kolom yang digunakan yaitu Age, SibSp, Parch, dan Fare. Baris data yang terdapat missing value dihapus.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
df_clean <- df %>%
dplyr::select( Age, SibSp, Parch, Fare) %>%
na.omit()
str(df_clean)
## 'data.frame': 714 obs. of 4 variables:
## $ Age : num 22 38 26 35 35 54 2 27 14 4 ...
## $ SibSp: int 1 1 0 1 0 0 3 0 1 1 ...
## $ Parch: int 0 0 0 0 0 0 1 2 0 1 ...
## $ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
## - attr(*, "na.action")= 'omit' Named int [1:177] 6 18 20 27 29 30 32 33 37 43 ...
## ..- attr(*, "names")= chr [1:177] "6" "18" "20" "27" ...
head(df_clean)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
Matriks korelasi menunjukkan hubungan linear antar variabel dengan nilai antara -1 sampai 1.
cor_matrix <- cor(df_clean)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Berdasarkan output : a.) Korelasi Age dan SibSp yaitu -0.308 menunjukkan hubungan negatif lemah hingga sedang, artinya penumpang yang lebih tua cenderung memiliki lebih sedikit saudara atau pasangan. b.) Korelasi Age dan Parch yautu -0.189 menunjukkan hubungan negatif lemah antara usia dan jumlah orang tua atau anak. c.) Korelasi Age dan Fare yaitu 0.096 menunjukkan hubungan yang sangat lemah, sehingga usia hampir tidak berpengaruh terhadap harga tiket. d.)Korelasi SibSp dan Parch yaitu 0.384 menunjukkan hubungan positif sedang, artinya penumpang yang membawa saudara/pasangan biasanya juga membawa orang tua atau anak. e.) Korelasi SibSp dan Fare yaitu 0.138 dan Parch dan Fare yaitu 0.205 menunjukkan hubungan positif lemah, di mana jumlah anggota keluarga sedikit memengaruhi harga tiket.
Matriks kovarians menggambarkan seberapa besar dua variabel berubah secara bersama-sama.
cov_matrix <- cov(df_clean)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Berdasarkan output : Varians tertinggi terdapat pada Fare (2800.413) yang menunjukkan harga tiket memiliki variasi paling besar, sedangkan varians terendah terdapat pada Parch (0.728) yang berarti jumlah orang tua atau anak memiliki variasi paling kecil. Kovarians Age dan SibSp , Age dan Parch bernilai negatif, sedangkan kovarians antara variabel keluarga dan Fare bernilai positif, menunjukkan arah hubungan antar variabel.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
a.) Nilai eigen terbesar adalah 2802.56, yang menunjukkan bahwa komponen utama pertama menjelaskan variasi data paling besar. Nilai eigen terkecil adalah 0.48, yang berarti komponen terakhir hanya menjelaskan variasi yang sangat kecil. Hal ini menunjukkan bahwa sebagian besar informasi data terkonsentrasi pada komponen utama pertama.
b.) Eigen vector menunjukkan kontribusi masing-masing variabel terhadap setiap komponen utama. Pada komponen utama pertama, nilai terbesar berasal dari Fare (0.9996) sehingga variasi data paling banyak dipengaruhi oleh harga tiket. Variabel lain memiliki kontribusi yang jauh lebih kecil pada komponen ini, sehingga pengaruh utamanya berasal dari Fare.