Dataset Titanic diimpor ke dalam R, kemudian dipilih beberapa kolom yang relevan. Baris data yang mengandung missing value dihapus agar analisis lebih akurat.

titanic <- read.csv("Titanic-Dataset.csv")

data_used <- titanic[, c("Age", "SibSp", "Parch", "Fare")]

data_clean <- na.omit(data_used)

summary(data_clean)
##       Age            SibSp            Parch             Fare       
##  Min.   : 0.42   Min.   :0.0000   Min.   :0.0000   Min.   :  0.00  
##  1st Qu.:20.12   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:  8.05  
##  Median :28.00   Median :0.0000   Median :0.0000   Median : 15.74  
##  Mean   :29.70   Mean   :0.5126   Mean   :0.4314   Mean   : 34.69  
##  3rd Qu.:38.00   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 33.38  
##  Max.   :80.00   Max.   :5.0000   Max.   :6.0000   Max.   :512.33

Correlation Matrix

Matriks korelasi digunakan untuk mengetahui hubungan linear antar variabel.

Berdasarkan hasil yang diperoleh, sebagian besar nilai korelasi mendekati nol, yang menunjukkan bahwa hubungan antar variabel relatif lemah. Korelasi positif antara SibSp dan Parch menunjukkan bahwa penumpang yang bepergian dengan saudara atau pasangan cenderung juga bepergian dengan anggota keluarga lainnya.

cor_matrix <- cor(data_clean)
round(cor_matrix, 3)
##          Age  SibSp  Parch  Fare
## Age    1.000 -0.308 -0.189 0.096
## SibSp -0.308  1.000  0.384 0.138
## Parch -0.189  0.384  1.000 0.205
## Fare   0.096  0.138  0.205 1.000

Variance–Covariance Matrix

Matriks varians–kovarians menunjukkan tingkat penyebaran data dan hubungan antar variabel dalam skala aslinya.

Variabel Fare memiliki nilai varians paling besar, yang menunjukkan bahwa harga tiket memiliki variasi yang paling tinggi dibandingkan variabel lainnya.

cov_matrix <- cov(data_clean)
round(cov_matrix, 3)
##           Age  SibSp  Parch     Fare
## Age   211.019 -4.163 -2.344   73.849
## SibSp  -4.163  0.864  0.305    6.806
## Parch  -2.344  0.305  0.728    9.262
## Fare   73.849  6.806  9.262 2800.413

Eigen Value dan Eigen Vector

Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan kontribusi setiap variabel terhadap komponen tersebut.

Komponen utama pertama memiliki eigen value terbesar, sehingga menjelaskan variasi data paling dominan, yang terutama dipengaruhi oleh variabel Fare.

eigen_result <- eigen(cov_matrix)

eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
round(eigen_result$vectors, 3)
##       [,1]   [,2]   [,3]   [,4]
## [1,] 0.028  0.999 -0.024  0.004
## [2,] 0.002 -0.021 -0.774  0.633
## [3,] 0.003 -0.013 -0.633 -0.774
## [4,] 1.000 -0.028  0.005  0.001