Mengimport dataset titanic ke dalam R, menggunakan library readr. Data akan disave ke dalam variabel titanic.
#install.packages("readr")
library(readr)
titanic <- read_csv("Titanic-Dataset.csv")
## Rows: 891 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
titanic2 <- titanic[, c("Age","SibSp","Parch","Fare")]
colSums(is.na(titanic2))
## Age SibSp Parch Fare
## 177 0 0 0
Terlihat bahwa terdapat 177 missing values pada variabel Age, yang akan dihapus menggunakan omit.
titanic2 <- na.omit(titanic2)
colSums(is.na(titanic2))
## Age SibSp Parch Fare
## 0 0 0 0
a.) Correlation Matrix
mtx_cor <- cor(titanic2)
mtx_cor
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Nilai korelasi positif SibSp dengan Parch dapat diintepretasikan sebagai penumpang yang membawa saudara atau pasangan (Sibling-Spouse) cenderung juga membawa orang tua atau anak (Parent-Child). Lalu, SibSp dengan Age memiliki korelasi negatif yang berarti penumpang yang lebih muda umumnya bepergian dengan lebih banyak keluarga.
b.) Variance-Covariance Matrix
mtx_cov <- cov(titanic2)
mtx_cov
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Nilai kovarians tinggi yang dimiliki Fare dan Age berarti bahwa kedua variabel ini memiliki penyebaran data yang besar, sehingga memiliki rentang data yang lebih luas dan beragam.
c.) Eigen value dan eigen vector
ei <- eigen(mtx_cov)
ei$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
Eigen value yang tinggi pada Fare berarti bahwa perbedaan tarif perjalanan menjadi faktor utama yang mempengaruhi variasi data penumpang.
ei$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Lalu Eigen vector menunjukkan arah kontribusi masing-masing variabel, dimana SibSp dan Parch paling berperan.