1. Import Data

Mengimport dataset titanic ke dalam R, menggunakan library readr. Data akan disave ke dalam variabel titanic.

#install.packages("readr")
library(readr)
titanic <- read_csv("Titanic-Dataset.csv")
## Rows: 891 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

2. Pilih kolom dan hapus missing value

titanic2 <- titanic[, c("Age","SibSp","Parch","Fare")]
colSums(is.na(titanic2))
##   Age SibSp Parch  Fare 
##   177     0     0     0

Terlihat bahwa terdapat 177 missing values pada variabel Age, yang akan dihapus menggunakan omit.

titanic2 <- na.omit(titanic2)
colSums(is.na(titanic2))
##   Age SibSp Parch  Fare 
##     0     0     0     0

3. Analisa Statistik Sederhana

a.) Correlation Matrix

mtx_cor <- cor(titanic2)
mtx_cor
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Nilai korelasi positif SibSp dengan Parch dapat diintepretasikan sebagai penumpang yang membawa saudara atau pasangan (Sibling-Spouse) cenderung juga membawa orang tua atau anak (Parent-Child). Lalu, SibSp dengan Age memiliki korelasi negatif yang berarti penumpang yang lebih muda umumnya bepergian dengan lebih banyak keluarga.

b.) Variance-Covariance Matrix

mtx_cov <- cov(titanic2)
mtx_cov
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Nilai kovarians tinggi yang dimiliki Fare dan Age berarti bahwa kedua variabel ini memiliki penyebaran data yang besar, sehingga memiliki rentang data yang lebih luas dan beragam.

c.) Eigen value dan eigen vector

ei <- eigen(mtx_cov)
ei$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214

Eigen value yang tinggi pada Fare berarti bahwa perbedaan tarif perjalanan menjadi faktor utama yang mempengaruhi variasi data penumpang.

ei$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Lalu Eigen vector menunjukkan arah kontribusi masing-masing variabel, dimana SibSp dan Parch paling berperan.