Dataset

Dataset Titanic digunakan untuk menganalisis hubungan antar variabel numerik. Variabel yang digunakan dalam analisis ini adalah Age, SibSp, Parch, dan Fare.

Import dan Pembersihan Data

Data diimpor dari file CSV dan dilakukan pembersihan data dengan menghapus baris yang memiliki missing value agar analisis lebih akurat.

data <- read.csv("C:/Users/USER/Documents/R/Titanic-Dataset.csv")

Data Titanic berhasil diimpor dari file CSV ke dalam R.

data_selected <- data[, c("Age", "SibSp", "Parch", "Fare")]

Disini hanya menggunakan kolom Age, sibsp, Parch, Fare untuk analisis lanjutan

data_clean <- na.omit(data_selected)

untuk menghilngkan missing value pada dataset

cor(data_clean)
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Dilihat dari hasil korelasi diatas menunjukkan bahwa SibSp dan Parch memiliki korelasi sebesar 0.3838199 yang artinya keduanya memiliki hubungan positif, kemudian nilai korelasi antara Age dan SibSp adalah −0.30824676, serta antara Age dan Parch sebesar −0.18911926 yang menunjukkan hubungan negatif, dan korelasi fare dengan age 0.09606669, sibsp 0.13832879, Parch 0.20511888 memiliki memiliki nilai yang kecil yang menunjukan korelasinya lemah

cov(data_clean)
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Kovarians tertinggi terdapat pada variabel Fare dengan nilai 2800.413, yang menunjukkan bahwa Fare memiliki variasi terbesar.

eigen(cov(data_clean))
## eigen() decomposition
## $values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
## 
## $vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Eigen Value

eigen value dengan nilai terbesar yaitu 2802.5636587 pada eigenvalue 1 yang artinya menjadi komponen paling penting variasi data terbesar, dilanjut dengan eigenvalue 2 dengan nila 209.0385659, serta 2 terakhir yg memiliki nilai terkecil 0.943878, 0.4787214

Eigen Vector

pada eigen vektor kolom pertama terlihat bahwa nilai yang paing besar yaitu pada variabel fare sebesar 0.999586200, selanjutnya pada kolom ke 2 nilai terbesar pada age 0.99929943