Titanic=read.csv("C:/Users/ARIMBY/Downloads/Titanic-Dataset.csv", header = TRUE,sep = ",")
head(Titanic)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
Berikut merupakan 6 data teratas dari data titanic yang sudah di input pada RStudio.
Titanic_selected <- Titanic[, c("Age", "SibSp", "Parch", "Fare")]
head(Titanic_selected)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 6 NA 0 0 8.4583
Sesuai dengan perintah,variabel yang diambil yaitu “age”, “SibSp”, “Pearch”, “Fare”.
colSums(is.na(Titanic_selected))
## Age SibSp Parch Fare
## 177 0 0 0
head(Titanic_selected)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 6 NA 0 0 8.4583
Berdasarkan hasil pengecekan, variabel Age memiliki 177 data yang hilang, sedangkan variabel lainnya lengkap.Dengan tampilan data awal yang menunjukkan adanya nilai NA pada kolom Age.
Titanic_clean <- na.omit(Titanic_selected)
colSums(is.na(Titanic_clean))
## Age SibSp Parch Fare
## 0 0 0 0
head(Titanic_clean)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
menunjukkan bahwa setelah penghapusan data, tidak ada lagi missing value.
cor_matrix <- cor(Titanic_clean)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Positif (+) → hubungan searah, Negatif (–) → hubungan berlawanan, Mendekati 0 → hubungan lemah,
Hubungan paling kuat terdapat antara SibSp dan Parch, sedangkan variabel Age tidak memiliki hubungan yang kuat dengan variabel lainnya.
cov_matrix <- cov(Titanic_clean)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Fare memiliki varians paling besar, diikuti oleh Age, sedangkan SibSp dan Parch memiliki varians yang relatif kecil.
eigen_result <- eigen(cor(Titanic_clean))
eigen_result$values
## [1] 1.6367503 1.1071770 0.6694052 0.5866676
Nilai eigen menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama.
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.4388714 -0.5962415 0.56095237 0.37043268
## [2,] -0.6250770 0.0732461 0.05500006 0.77517016
## [3,] -0.5908590 -0.1774532 0.60558695 -0.50265342
## [4,] -0.2599159 -0.7795136 -0.56175785 -0.09607493
Eigen vector menunjukkan bobot kontribusi masing-masing variabel (Age, SibSp, Parch, Fare) pada setiap komponen utama.