Nama: Indah Faizah Salsabillah Ramdhany Wadjo NIM: 24031554210 Kelas: 2024D
Tugas Analisis Multivariat 2024D, Sains Data UNESA
titanic <- read.csv("Titanic-Dataset.csv")
head(titanic)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
data_selected <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_clean <- na.omit(data_selected)
head(data_clean)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
#a) Correlation Matrix
correlation_matrix <- cor(data_clean)
correlation_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
correlation matrix menunjukkan hubungan antar variabel usia, jumlah saudara kandung, jumlah orang tua atau anak, dan tarif dengan nilai yang berkisar dari -1 sampai 1. hasil ini menunjukkan bahwa sibsp dan parch memiliki korelasi positif sedang yaitu 0.38, sehingga jumlah saudara atau pasangan berkaitan dengan jumlah orang tua atau anak yang ikut. variabel Age memiliki hubungan negatif dengan sibsp dan parch, artinya penumpang yang lebih tua biasanya bepergian bersama anggota keluarga yang lebih sedikit. hubungan antara usia dan harga tiket cukup lemah (0.10), sehingga usia tidak memengaruhi harga tiket secara signifikan.
#b) Variance-Covariance Matrix
cov_matrix <- cov(data_clean)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
variance–covariance matrix menunjukkan sebaran dan hubungan variasi antar variabel age, sibsp, parch, dan fare. nilai pada diagonal utama merupakan varians masing-masing variabel, di mana fare ini memiliki varians terbesar yang menandakan variasi harga tiket sangat tinggi. nilai kovarians positif antara sibsp dan parch menunjukkan bahwa kedua variabel tersebut cenderung meningkat bersama, sedangkan kovarians age dan variabel keluarga bernilai negatif, menunjukkan kecenderungan penumpang yang lebih tua bepergian dengan lebih sedikit anggota keluarga.
#c) Eigen value dan eigen vector
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
eigen value menunjukkan besarnya variasi data yang dijelaskan oleh
setiap komponen utama. eigen value pertama memiliki nilai yang paling
besar, sehingga komponen utama pertama menjelaskan variasi terbesar
dalam data.
eimgen vector menunjukkan kontribusi masing-masing variabel terhadap
komponen utama. variabel dengan nilai absolut terbesar pada eigen vector
pertama merupakan variabel yang paling berpengaruh terhadap variasi
utama data, yaitu fare.