Import Data

File csv disimpan dalam directory

data <- read.csv('Titanic-Dataset.csv')
head(data)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q
class(data)
## [1] "data.frame"

Mengambil Kolom

c digunakan untuk combine atau menggabungkan kolom jadi satu set.

kolom_yang_diambil <- data[, c("Age", "SibSp", "Parch", "Fare")]

Cek jumlah missing value

sum(is.na(kolom_yang_diambil))
## [1] 177

Menghapus missing value

menghapus baris Na.

data_bersih <- na.omit(kolom_yang_diambil)

Cek data berdasarkan jumlah baris sebelum dan sesudah

nrow(kolom_yang_diambil)
## [1] 891
nrow(data_bersih)
## [1] 714

Correlation Matrix

Nilai korelasi berada pada rentang -1 hingga 1, jika positif maka hubungan searah, jika negatif hubungan berlawanan, jika 0 hubungan lemah.
korelasi paling tinggi terdapat pada SibSp dan Parc yaitu 0,3838199.

cor_matrix <- cor(data_bersih)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Variance-Covariance Matrix

digunakan untuk melihat varian dan covarian masing-masing variiabel.
Age memiliki nilai 211,02 yang menunjukan bahwa Age memiliki tingkat variasi yang cukup besar artinya terdapat perbedaan usia yang cukup beragam antar penumpang.

cov_matrix <- cov(data_bersih)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Dekomposisi Eigen

berdasarkan dari hasil eigen, [1] memiliki value yang terbesar dan dilihat dari vector bahwa [1] didominasi oleh Fare yang dimana variasi terbesar dalam data yaitu berasal dari Fare.
[2] memiliki value 209,04 dan didominasi oleh Age, yang menunjukan bahwa variasi usia merupakan yang terbesar kedua setelah Fare.
[3] dan [4] memiliki value yang paling kecil bahkan sangat kecil, yang dimana memiliki pengaruh relatif kecil.

eigen_dec <- eigen(cov_matrix)
eigen_dec$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_dec$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Kesimpulan

Variasi data dapat direpresentasikan oleh dua komponen yaitu variasi Fare dan juga Age, sedangkan SibSp dan Parch menjelaskan variasi data secara keseluruhan relatif kecil atau tidak dominan.