Dataset Titanic diimpor ke dalam R, kemudian dipilih beberapa kolom yang relevan. Baris data yang mengandung missing value dihapus agar analisis lebih akurat.
titanic <- read.csv("Titanic-Dataset.csv")
data_used <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_clean <- na.omit(data_used)
summary(data_clean)
## Age SibSp Parch Fare
## Min. : 0.42 Min. :0.0000 Min. :0.0000 Min. : 0.00
## 1st Qu.:20.12 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.: 8.05
## Median :28.00 Median :0.0000 Median :0.0000 Median : 15.74
## Mean :29.70 Mean :0.5126 Mean :0.4314 Mean : 34.69
## 3rd Qu.:38.00 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.: 33.38
## Max. :80.00 Max. :5.0000 Max. :6.0000 Max. :512.33
Correlation Matrix
Matriks korelasi digunakan untuk mengetahui hubungan linear antar variabel.
Berdasarkan hasil yang diperoleh, sebagian besar nilai korelasi mendekati nol, yang menunjukkan bahwa hubungan antar variabel relatif lemah. Korelasi positif antara SibSp dan Parch menunjukkan bahwa penumpang yang bepergian dengan saudara atau pasangan cenderung juga bepergian dengan anggota keluarga lainnya.
cor_matrix <- cor(data_clean)
round(cor_matrix, 3)
## Age SibSp Parch Fare
## Age 1.000 -0.308 -0.189 0.096
## SibSp -0.308 1.000 0.384 0.138
## Parch -0.189 0.384 1.000 0.205
## Fare 0.096 0.138 0.205 1.000
Variance–Covariance Matrix
Matriks varians–kovarians menunjukkan tingkat penyebaran data dan hubungan antar variabel dalam skala aslinya.
Variabel Fare memiliki nilai varians paling besar, yang menunjukkan bahwa harga tiket memiliki variasi yang paling tinggi dibandingkan variabel lainnya.
cov_matrix <- cov(data_clean)
round(cov_matrix, 3)
## Age SibSp Parch Fare
## Age 211.019 -4.163 -2.344 73.849
## SibSp -4.163 0.864 0.305 6.806
## Parch -2.344 0.305 0.728 9.262
## Fare 73.849 6.806 9.262 2800.413
Eigen Value dan Eigen Vector
Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan kontribusi setiap variabel terhadap komponen tersebut.
Komponen utama pertama memiliki eigen value terbesar, sehingga menjelaskan variasi data paling dominan, yang terutama dipengaruhi oleh variabel Fare.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
round(eigen_result$vectors, 3)
## [,1] [,2] [,3] [,4]
## [1,] 0.028 0.999 -0.024 0.004
## [2,] 0.002 -0.021 -0.774 0.633
## [3,] 0.003 -0.013 -0.633 -0.774
## [4,] 1.000 -0.028 0.005 0.001