Dataset Titanic digunakan untuk menganalisis hubungan antar variabel numerik. Variabel yang digunakan dalam analisis ini adalah Age, SibSp, Parch, dan Fare.
Data diimpor dari file CSV dan dilakukan pembersihan data dengan menghapus baris yang memiliki missing value agar analisis lebih akurat.
data <- read.csv("C:/Users/USER/Documents/R/Titanic-Dataset.csv")
Data Titanic berhasil diimpor dari file CSV ke dalam R.
data_selected <- data[, c("Age", "SibSp", "Parch", "Fare")]
Disini hanya menggunakan kolom Age, sibsp, Parch, Fare untuk analisis lanjutan
data_clean <- na.omit(data_selected)
untuk menghilngkan missing value pada dataset
cor(data_clean)
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Dilihat dari hasil korelasi diatas menunjukkan bahwa SibSp dan Parch memiliki korelasi sebesar 0.3838199 yang artinya keduanya memiliki hubungan positif, kemudian nilai korelasi antara Age dan SibSp adalah −0.30824676, serta antara Age dan Parch sebesar −0.18911926 yang menunjukkan hubungan negatif, dan korelasi fare dengan age 0.09606669, sibsp 0.13832879, Parch 0.20511888 memiliki memiliki nilai yang kecil yang menunjukan korelasinya lemah
cov(data_clean)
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Kovarians tertinggi terdapat pada variabel Fare dengan nilai 2800.413, yang menunjukkan bahwa Fare memiliki variasi terbesar.
eigen(cov(data_clean))
## eigen() decomposition
## $values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
##
## $vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
eigen value dengan nilai terbesar yaitu 2802.5636587 pada eigenvalue 1 yang artinya menjadi komponen paling penting variasi data terbesar, dilanjut dengan eigenvalue 2 dengan nila 209.0385659, serta 2 terakhir yg memiliki nilai terkecil 0.943878, 0.4787214
pada eigen vektor kolom pertama terlihat bahwa nilai yang paing besar yaitu pada variabel fare sebesar 0.999586200, selanjutnya pada kolom ke 2 nilai terbesar pada age 0.99929943