install.packages("readr")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(readr)
titanic <- read_csv("Titanic-Dataset.csv")
## Rows: 891 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
titanic_mekanik <- titanic[, c("Age","SibSp","Parch","Fare")]
titanic_mekanik <- na.omit(titanic_mekanik)
sum(is.na(titanic_mekanik))
## [1] 0

Seleksi variabel dan penanganan missing value

#3. Matrix Cor, Matrix Cov, Eigen Value, & Vector
#a.) Matrix Cor untuk mengetahui hubungan antarvariabel
mtx_cor <- cor(titanic_mekanik)
mtx_cor
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000
#
#b.) Matrix Cov untuk melihat keragaman data dan hubungan antarvariabel dalam satuan aslinya.
mtx_cov <- cov(titanic_mekanik)
mtx_cov
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
#c.) Eigen values untuk menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama, sedangkan Eigen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama yang terbentuk
ei <- eigen(mtx_cov)
ei$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
ei$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652
Kesimpulan
Berdasarkan hasil analisis, hubungan antar variabel Age, SibSp, Parch, dan Fare sebagian besar bersifat lemah hingga sedang.
Komponen utama pertama memiliki nilai eigen terbesar, sehingga menjelaskan variasi data paling besar. Hasil ini dapat digunakan sebagai dasar untuk analisis lanjutan seperti Principal Component Analysis (PCA).