Nama: Indah Faizah Salsabillah Ramdhany Wadjo NIM: 24031554210 Kelas: 2024D

Tugas Analisis Multivariat 2024D, Sains Data UNESA

titanic <- read.csv("Titanic-Dataset.csv")
head(titanic)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q
data_selected <- titanic[, c("Age", "SibSp", "Parch", "Fare")]

data_clean <- na.omit(data_selected)

head(data_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

#a) Correlation Matrix

correlation_matrix <- cor(data_clean)
correlation_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

correlation matrix menunjukkan hubungan antar variabel usia, jumlah saudara kandung, jumlah orang tua atau anak, dan tarif dengan nilai yang berkisar dari -1 sampai 1. hasil ini menunjukkan bahwa sibsp dan parch memiliki korelasi positif sedang yaitu 0.38, sehingga jumlah saudara atau pasangan berkaitan dengan jumlah orang tua atau anak yang ikut. variabel Age memiliki hubungan negatif dengan sibsp dan parch, artinya penumpang yang lebih tua biasanya bepergian bersama anggota keluarga yang lebih sedikit. hubungan antara usia dan harga tiket cukup lemah (0.10), sehingga usia tidak memengaruhi harga tiket secara signifikan.

#b) Variance-Covariance Matrix

cov_matrix <- cov(data_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

variance–covariance matrix menunjukkan sebaran dan hubungan variasi antar variabel age, sibsp, parch, dan fare. nilai pada diagonal utama merupakan varians masing-masing variabel, di mana fare ini memiliki varians terbesar yang menandakan variasi harga tiket sangat tinggi. nilai kovarians positif antara sibsp dan parch menunjukkan bahwa kedua variabel tersebut cenderung meningkat bersama, sedangkan kovarians age dan variabel keluarga bernilai negatif, menunjukkan kecenderungan penumpang yang lebih tua bepergian dengan lebih sedikit anggota keluarga.

#c) Eigen value dan eigen vector

eigen_result <- eigen(cov_matrix)

eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_result$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

eigen value menunjukkan besarnya variasi data yang dijelaskan oleh setiap komponen utama. eigen value pertama memiliki nilai yang paling besar, sehingga komponen utama pertama menjelaskan variasi terbesar dalam data.
eimgen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama. variabel dengan nilai absolut terbesar pada eigen vector pertama merupakan variabel yang paling berpengaruh terhadap variasi utama data, yaitu fare.