install.packages("readr")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(readr)
titanic <- read_csv("Titanic-Dataset.csv")
## Rows: 891 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
titanic_mekanik <- titanic[, c("Age","SibSp","Parch","Fare")]
titanic_mekanik <- na.omit(titanic_mekanik)
sum(is.na(titanic_mekanik))
## [1] 0
Seleksi variabel dan penanganan missing value
#3. Matrix Cor, Matrix Cov, Eigen Value, & Vector
#a.) Matrix Cor untuk mengetahui hubungan antarvariabel
mtx_cor <- cor(titanic_mekanik)
mtx_cor
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
#
#b.) Matrix Cov untuk melihat keragaman data dan hubungan antarvariabel dalam satuan aslinya.
mtx_cov <- cov(titanic_mekanik)
mtx_cov
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
#c.) Eigen values untuk menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama, sedangkan Eigen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama yang terbentuk
ei <- eigen(mtx_cov)
ei$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
ei$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
| Kesimpulan |
| Berdasarkan hasil analisis, hubungan antar variabel Age, SibSp, Parch, dan Fare sebagian besar bersifat lemah hingga sedang. |
| Komponen utama pertama memiliki nilai eigen terbesar, sehingga menjelaskan variasi data paling besar. Hasil ini dapat digunakan sebagai dasar untuk analisis lanjutan seperti Principal Component Analysis (PCA). |