1. import Dataset

Titanic_Dataset <- read.csv("C:/Users/ASUS/Downloads/Titanic-Dataset.csv")
head(Titanic_Dataset)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q

2.kolom Age, Sibsp, Parch, Fare dan menghapus row dengan missing value

datatitanic <- Titanic_Dataset[, c("Age", "SibSp", "Parch", "Fare")]
datatitanic <- na.omit(datatitanic)
head(datatitanic)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

3a. Correlation matrix

cor_matrix <- cor(datatitanic)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Correlation matrix menunjukkan hubungan antar variabel. Nilai mendekati 1 menunjukkan hubungan positif kuat, mendekati -1 hubungan negatif kuat, dan mendekati 0 menunjukkan hubungan lemah -Age dan SiSp memiliki korelasi negatif(-0.308), artinya semakin tua usia, jumlah saudara/pasangan cenderung lebih sedikit - SibSp dan Parch memiliki korelasi positif(0.383), artinya penumpang dengan banyak saudara cenderung memiliki banyak orang tua/anak - Fare memiliki korelasi lemah dengan variabel lain Secara keseluruhan, hubungan antar variabel dalam dataset titanic termasuk lemah hingga sedang

3b. Variance-Covariance Matrix

cov_matrix <- cov(datatitanic)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Covariance matrix menunjukkan bagaimana dua variabel berubah bersama - nilai positif menunjukkan bahwa kedua variabek bergerak searah - nilai negatif menunjukkan kedua variabel bergerak berlawanan arah hasil kode diperoleh: - varians age = 211.02 - varians SibSp = 0.866 - varians Fare = 2800.41 dari hasil tersebut, varians Fare memiliki nilai yang paling besar, artinya harga tiket memiliki penyebaran data paling tinggi dibanding variabel lain

3c. Eigen value dan eigen vector

eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_result$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Eigenvalue menunjukkan besarnya variasi pada setiap komponen utama, sedangkan eigenvector menunjukkan arah kontribusi masing-masing variabel Dari hasil kode diperoleh: - Eigen value [1] = 2802.56 - Eigen value [2] = 209.03 - Eigen value [3] = 0.94 - Eigen value [4] = 0.47 dari hasil tersebut, komponen pertama memiliki eigen value terbesar. Hal ini menunjukkan bahwa komponen pertama menjelaskan sebagian besar variasi data

karena eigen value pertama sangat besar dibanding yang lainnya, dapat disimpulkan bahwa sebagian besar variasi data didominasi oleh variabel dengan varians Fare (varians terbesar)