Pada tahap ini, data Titanic diimpor dan dipilih variabel yang akan dianalisis.
``` r
titanic <- read.csv("Titanic-Dataset.csv")
data_titanic <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_titanic <- na.omit(data_titanic)
head(data_titanic)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
cor_matrix <- cor(data_titanic)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Nilai korelasi antara Age dan SibSp menunjukkan hubungan negatif lemah, yang berarti semakin tua penumpang, jumlah saudara atau pasangan yang ikut cenderung lebih sedikit.
Korelasi antara SibSp dan Parch menunjukkan hubungan positif sedang, yang berarti penumpang yang membawa saudara biasanya juga membawa orang tua atau anak.
cov_matrix <- cov(data_titanic)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Varians Fare memiliki nilai paling besar, yang menunjukkan bahwa harga tiket sangat bervariasi dibandingkan variabel lainnya.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Eigen value pertama merupakan yang terbesar sehingga komponen utama pertama menjelaskan variasi data paling dominan. Variabel Fare berkontribusi besar pada komponen ini, sedangkan Age dominan pada komponen kedua.