Tugas ini dilakukan untuk mengetahui hubungan antar variabel yang ada di dalam dataset Titanic-Dataset.csv. Pada tugas ini hanya menggunakan 4 variabel, yaitu Age, SibSp, Parch, dan Fare. Data yang terdapat missing value pada variabel-variabel tersebut akan dihapus agar analisis lebih akurat. Lalu, hubungan antar variabel dianalisis menggunakan matriks korelasi, matriks varians-kovarians, serta nilai eigen dan vektor eigen.
titanic <- read.csv("Titanic-Dataset.csv")
head(titanic)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
kolom <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
cleaning_kolom <- na.omit(kolom)
cor(cleaning_kolom)
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Dapat dilihat dari matriks korelasi tersebut bahwa variabel Age tidak menunjukkan adanya korelasi antar variabel lain karena nilainya yang sangat rendah, terlihat pada variabel Age dan variabel Fare menunjukkan angka yang rendah, itu menunjukkan bahwa umur tidak mempegaruhi harga tiket. Variabel SibSp dengan variabel Parch menunjukkan nilai korelasi yang cukup tinggi itu artinya variabel SibSp mempengaruhi variabel Parch, jadi semakin banyak penumpang yang mempunyai saudara, maka semakin banyak juga jumlah anggota yang diajak bepergian.
cov(cleaning_kolom)
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Dapat dilihat bahwa hasil dari varians variabel Fare menunjukkan nilai tertinggi diantara variabel lainnya, juga nilai kovarians positif variabel Fare dengan variabel Parch menunjukkan bahwa penumpang yang lebih tua cenderung membayar tiket lebih mahal, jika variabel Age meningkat maka variabel Fare juga meningkat. Sedangkan nilai kovarians negatif antar variabel Age dengan variabel Parch, ketika variabel Age meningkat maka variabel Parch menurun dan sebaliknya, ini menunjukkan bahwa penumpang yang lebih tua cenderung tidak bepergian dengan orang tua/anak.
eigen(cov(cleaning_kolom))
## eigen() decomposition
## $values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
##
## $vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Dapat dilihat dari hasil nilai eigen terbesar terdapat pada komponen utama pertama, yang menunjukan bahwa sebagian besar variasi data dijelaskan oleh komponen tersebut, komponen utama kedua juga masih memberikan kontribuasi variasi yang cukup signifikan, dan dua komponen utama terakhir memiliki nilai eigen yang sangat kecil sehingga kontribusinya terhadap variasi data relatif kecil. Hasil vektor eigen menunjukkan bahwa pada komponen utama pertama variabel Fare memiliki koefisien paling besar, itu artinya komponen utama pertama didominasi oleh variabel Fare. Sedangkan, pada komponen utama kedua, variabel Age memiliki koefisien paling besar dibandingkan variabel lainnya, yang menunjukkan bahwa variasi umur penumpang menjadi faktor utama dalam menjelaskan variasi data pada komponen tersebut. Variabel SibSp dan Parch hanya memberikan kontribusi yang relatif kecil terhadap komponen-komponen utama tersebut.