titanic <- read.csv("Titanic-Dataset.csv")
data_clean <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_clean <- na.omit(data_clean)
head(data_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625
  1. Correlation Matrix Matriks korelasi menunjukkan bahwa variabel SibSp dan Parch memiliki korelasi positif sedang, artinya penumpang yang bepergian dengan saudara cenderung juga bepergian dengan orang tua atau anak. Sedangkan age memiliki korelasi negatif dengan SibSp dan Parch, artinya penumpang yang lebih muda cenderung bepergian bersama keluarga, sedangkan penumpang yang lebih tua lebih sering bepergian sendiri. Variabel Fare memiliki korelasi yang lemah terhadap variabel lain, sehingga harga tiket tidak berhubungan kuat dengan usia maupun jumlah anggota keluarga yang ikut.
cor_matrix <- cor(data_clean) 
cor_matrix 
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000
  1. Variance-Covariance Matrix Matriks varians–kovarians menunjukkan Fare memiliki variasi paling besar, artinya harga tiket penumpang sangat beragam dibandingkan variabel lainnya. Sedangkan Varians Age, SibSp, dan Parch relatif lebih kecil, menunjukkan sebaran data yang lebih sempit. Kovarians positif antara SibSp dan Parch menguatkan temuan pada matriks korelasi bahwa kedua variabel ini cenderung meningkat bersama, yaitu jumlah saudara dan orang tua atau anak yang ikut saling berkaitan.
cov_matrix <- cov(data_clean) 
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
  1. Eigen value dan eigen vector Eigen vector menunjukkan seberapa besar peran masing-masing variabel dalam membentuk komponen tersebut. Variabel dengan nilai absolut paling besar pada eigen vector adalah yang paling berpengaruh. Hasil ini menjadi dasar untuk analisis lanjutan.
eigen_result <- eigen(cov_matrix) 
eigen_result$values 
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_result$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652