File csv disimpan dalam directory
data <- read.csv('Titanic-Dataset.csv')
head(data)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
class(data)
## [1] "data.frame"
c digunakan untuk combine atau menggabungkan kolom jadi satu set.
kolom_yang_diambil <- data[, c("Age", "SibSp", "Parch", "Fare")]
sum(is.na(kolom_yang_diambil))
## [1] 177
menghapus baris Na.
data_bersih <- na.omit(kolom_yang_diambil)
nrow(kolom_yang_diambil)
## [1] 891
nrow(data_bersih)
## [1] 714
Nilai korelasi berada pada rentang -1 hingga 1, jika positif maka
hubungan searah, jika negatif hubungan berlawanan, jika 0 hubungan
lemah.
korelasi paling tinggi terdapat pada SibSp dan Parc yaitu 0,3838199.
cor_matrix <- cor(data_bersih)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
digunakan untuk melihat varian dan covarian masing-masing
variiabel.
Age memiliki nilai 211,02 yang menunjukan bahwa Age memiliki tingkat
variasi yang cukup besar artinya terdapat perbedaan usia yang cukup
beragam antar penumpang.
cov_matrix <- cov(data_bersih)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
berdasarkan dari hasil eigen, [1] memiliki value yang terbesar dan
dilihat dari vector bahwa [1] didominasi oleh Fare yang dimana variasi
terbesar dalam data yaitu berasal dari Fare.
[2] memiliki value 209,04 dan didominasi oleh Age, yang menunjukan bahwa
variasi usia merupakan yang terbesar kedua setelah Fare.
[3] dan [4] memiliki value yang paling kecil bahkan sangat kecil, yang
dimana memiliki pengaruh relatif kecil.
eigen_dec <- eigen(cov_matrix)
eigen_dec$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_dec$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Variasi data dapat direpresentasikan oleh dua komponen yaitu variasi Fare dan juga Age, sedangkan SibSp dan Parch menjelaskan variasi data secara keseluruhan relatif kecil atau tidak dominan.