Berikut Tahapan Analisis Data Titanic

  1. Persiapkan Titanic-Dataset dari platform kaggle kemudian coba baca datanya (https://www.kaggle.com/datasets/yasserh/titanic-dataset?select=Titanic-Dataset.csv)
data <- read.csv("D:/Data Science/Semester 4/Multivariate Analysis/Titanic-Dataset.csv")
head(data)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q
  1. Gunakan kolom Age, SibSp, Parch, Fare
data_1 <- subset(data,select = c(Age, SibSp, Parch, Fare))
head(data_1)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 6  NA     0     0  8.4583
  1. Hapus row data dengan missing value
data_2 <- na.omit(data_1)
head(data_2)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625
  1. Tentukan Correlation Matrix
Corr <- cor(data_2)
Corr
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Hasil Correlation Matrix menunjukkan bahwa tidak ada korelasi yang begitu ekstrem dengan korelasi negatif terkuat terjalin antara Age dan SibSp (-0.30824676) yang dimana ternyata usia seseorang cukup menentukan berapa banyak saudara yang dibawa. Adapun korelasi positif yang cukup kuat terjalin antara SibSp dan Parch (0.3838199) yang menandakan bahwa jika seseorang membawa saudara/pasangan, kemungkinan besar juga membawa orang tua/anak.

  1. Tentukan Variance-Covariance Matrix
VarCov <- cov(data_2)
VarCov
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Hasil Variance-Covariance Matrix menunjukkan bahwa terdapat variansi data yang cukup besar pada Fare (tarif) dan Age (Usia) dengan kovariansi di semua variabel-nya yang cenderung lemah positif. Artinya, semua variabel saling bergerak ke arah yang sama meskipun belum begitu kuat.

  1. Tentukan eigen value dan eigen vector
eigen_hasil <- eigen(VarCov)
eigen_hasil
## eigen() decomposition
## $values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
## 
## $vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652
eigen_val <- eigen_hasil$values
eigen_vec <- eigen_hasil$vectors

Hasil eigen vector dan eigen value menunjukkan bahwa terdapat dua variabel saja yang memberikan informasi penting pada data titanic, terlihat dari dua eigen value dengan nilai terbesar yaitu 2802.5636587 dan 209.0385659. Kedua variabel tersebut ialah Fare dan Age yang diambil berdasarkan nilai variansi dan dapat dilihat juga pada eigen vector dengan nilai terbesar pada baris ke-1 dan 4 dari eigen 1 yang merepresentasikan Age dan Fare.