titanic <- read.csv("Titanic-Dataset.csv")
data_clean <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_clean <- na.omit(data_clean)
head(data_clean)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
- Correlation Matrix Matriks korelasi menunjukkan bahwa variabel SibSp
dan Parch memiliki korelasi positif sedang, artinya penumpang yang
bepergian dengan saudara cenderung juga bepergian dengan orang tua atau
anak. Sedangkan age memiliki korelasi negatif dengan SibSp dan Parch,
artinya penumpang yang lebih muda cenderung bepergian bersama keluarga,
sedangkan penumpang yang lebih tua lebih sering bepergian sendiri.
Variabel Fare memiliki korelasi yang lemah terhadap variabel lain,
sehingga harga tiket tidak berhubungan kuat dengan usia maupun jumlah
anggota keluarga yang ikut.
cor_matrix <- cor(data_clean)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
- Variance-Covariance Matrix Matriks varians–kovarians menunjukkan
Fare memiliki variasi paling besar, artinya harga tiket penumpang sangat
beragam dibandingkan variabel lainnya. Sedangkan Varians Age, SibSp, dan
Parch relatif lebih kecil, menunjukkan sebaran data yang lebih sempit.
Kovarians positif antara SibSp dan Parch menguatkan temuan pada matriks
korelasi bahwa kedua variabel ini cenderung meningkat bersama, yaitu
jumlah saudara dan orang tua atau anak yang ikut saling berkaitan.
cov_matrix <- cov(data_clean)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
- Eigen value dan eigen vector Eigen vector menunjukkan seberapa besar
peran masing-masing variabel dalam membentuk komponen tersebut. Variabel
dengan nilai absolut paling besar pada eigen vector adalah yang paling
berpengaruh. Hasil ini menjadi dasar untuk analisis lanjutan.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652