Titanic_Dataset <- read.csv("C:/Users/ASUS/Downloads/Titanic-Dataset.csv")
head(Titanic_Dataset)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
datatitanic <- Titanic_Dataset[, c("Age", "SibSp", "Parch", "Fare")]
datatitanic <- na.omit(datatitanic)
head(datatitanic)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
cor_matrix <- cor(datatitanic)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Correlation matrix menunjukkan hubungan antar variabel. Nilai mendekati 1 menunjukkan hubungan positif kuat, mendekati -1 hubungan negatif kuat, dan mendekati 0 menunjukkan hubungan lemah -Age dan SiSp memiliki korelasi negatif(-0.308), artinya semakin tua usia, jumlah saudara/pasangan cenderung lebih sedikit - SibSp dan Parch memiliki korelasi positif(0.383), artinya penumpang dengan banyak saudara cenderung memiliki banyak orang tua/anak - Fare memiliki korelasi lemah dengan variabel lain Secara keseluruhan, hubungan antar variabel dalam dataset titanic termasuk lemah hingga sedang
cov_matrix <- cov(datatitanic)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Covariance matrix menunjukkan bagaimana dua variabel berubah bersama - nilai positif menunjukkan bahwa kedua variabek bergerak searah - nilai negatif menunjukkan kedua variabel bergerak berlawanan arah hasil kode diperoleh: - varians age = 211.02 - varians SibSp = 0.866 - varians Fare = 2800.41 dari hasil tersebut, varians Fare memiliki nilai yang paling besar, artinya harga tiket memiliki penyebaran data paling tinggi dibanding variabel lain
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Eigenvalue menunjukkan besarnya variasi pada setiap komponen utama, sedangkan eigenvector menunjukkan arah kontribusi masing-masing variabel Dari hasil kode diperoleh: - Eigen value [1] = 2802.56 - Eigen value [2] = 209.03 - Eigen value [3] = 0.94 - Eigen value [4] = 0.47 dari hasil tersebut, komponen pertama memiliki eigen value terbesar. Hal ini menunjukkan bahwa komponen pertama menjelaskan sebagian besar variasi data
karena eigen value pertama sangat besar dibanding yang lainnya, dapat disimpulkan bahwa sebagian besar variasi data didominasi oleh variabel dengan varians Fare (varians terbesar)