Berikut Tahapan Analisis Data Titanic
data <- read.csv("D:/Data Science/Semester 4/Multivariate Analysis/Titanic-Dataset.csv")
head(data)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
data_1 <- subset(data,select = c(Age, SibSp, Parch, Fare))
head(data_1)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 6 NA 0 0 8.4583
data_2 <- na.omit(data_1)
head(data_2)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
Corr <- cor(data_2)
Corr
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Hasil Correlation Matrix menunjukkan bahwa tidak ada korelasi yang begitu ekstrem dengan korelasi negatif terkuat terjalin antara Age dan SibSp (-0.30824676) yang dimana ternyata usia seseorang cukup menentukan berapa banyak saudara yang dibawa. Adapun korelasi positif yang cukup kuat terjalin antara SibSp dan Parch (0.3838199) yang menandakan bahwa jika seseorang membawa saudara/pasangan, kemungkinan besar juga membawa orang tua/anak.
VarCov <- cov(data_2)
VarCov
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Hasil Variance-Covariance Matrix menunjukkan bahwa terdapat variansi data yang cukup besar pada Fare (tarif) dan Age (Usia) dengan kovariansi di semua variabel-nya yang cenderung lemah positif. Artinya, semua variabel saling bergerak ke arah yang sama meskipun belum begitu kuat.
eigen_hasil <- eigen(VarCov)
eigen_hasil
## eigen() decomposition
## $values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
##
## $vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
eigen_val <- eigen_hasil$values
eigen_vec <- eigen_hasil$vectors
Hasil eigen vector dan eigen value menunjukkan bahwa terdapat dua variabel saja yang memberikan informasi penting pada data titanic, terlihat dari dua eigen value dengan nilai terbesar yaitu 2802.5636587 dan 209.0385659. Kedua variabel tersebut ialah Fare dan Age yang diambil berdasarkan nilai variansi dan dapat dilihat juga pada eigen vector dengan nilai terbesar pada baris ke-1 dan 4 dari eigen 1 yang merepresentasikan Age dan Fare.