Menganalisis statistik pada dataset Titatnic dengan menggunakan variabel Age, SibSp, Parch, dan Fare. Awalnya data dibersihkan dari missing values lalu dianalisis menggunakan correlation matrix, variance-covariance matrix, eigen value dan eigen vector untuk memahami hubungan dan antar variabel.
data_titanic <- read.csv("Titanic-Dataset.csv", header = TRUE, stringsAsFactors = FALSE)
kolom <- data_titanic[c("Age", "SibSp", "Parch", "Fare")]
cleaning <- na.omit(kolom)
head(cleaning)
## Age SibSp Parch Fare
## 1 22 1 0 7.2500
## 2 38 1 0 71.2833
## 3 26 0 0 7.9250
## 4 35 1 0 53.1000
## 5 35 0 0 8.0500
## 7 54 0 0 51.8625
cor(cleaning)
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Correlation mengukur seberapa kuat dan ke arah mana hubungan linier antara dua variabel. Nilai positif berarti kedua variabel cenderung meningkat bersama, nilai negatif berarti salah satu meningkat saat yang lain menurun, dan nilai mendekati nol berarti hubungan linier sangat lemah. Dilihat dari hasil correlation matrix, tidak ada correlation yang kuat antar variabel. Hubungan yang paling kuat adalah SibSp dan Parch, artinya penumpang yang membawa saudara/pasangan sering juga membawa orang tua/anak. Sementara itu, Age dan Fare memiliki hubungan yang lemah, artinya usia hampir tidak berpengaruh pada harga tiket.
cov(cleaning)
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Matrix ini menunjukkan seberapa besar variance tiap variabel serta bagaimana dua variabel berubah bersama. Nilai pada diagonal utama adalah variance, sedangkan nilai di luar diagonal disebut covariance. Hasilnya memperlihatkan bahwa Fare memiliki variasi paling besar, artinya perbedaan harga tiket antar penumpang sangat tinggi. Sementara itu, SibSp dan Parch variasinya kecil, karena kebanyakan penumpang tidak membawa banyak anggota keluarga. Covariance menunjukkan bahwa SibSp dan Parch bernilai positif artinya penumpang yang membawa saudara/pasangan sering juga membawa orang tua/anak. Sedangkan Age dan SibSp bernilai negatif, artinya ketika usia meningkat, jumlah saudara/pasangan yang ikut cenderung menurun.
eigen(cov(cleaning))
## eigen() decomposition
## $values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
##
## $vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Eigen value menunjukkan seberapa besar variasi data yang dijelaskan oleh setiap komponen utama. Eigenvalue pertama sangat besar, artinya sebagian besar variasi data dijelaskan oleh satu komponen utama. Eigenvalue kedua masih menjelaskan variasi, tetapi jauh lebih kecil. Eigenvalue ketiga dan keempat sangat kecil, artinya kontribusinya terhadap variasi data sangat rendah.
Eigen vector menunjukkan arah atau kombinasi variabel yang membentuk komponen utama. Eigenvector pertama didominasi oleh Fare, artinya variasi terbesar data terutama dipengaruhi oleh perbedaan harga tiket. Eigenvector kedua didominasi oleh Age, sehingga usia menjadi faktor variasi penting berikutnya. Eigenvector ketiga dan keempat lebih berkaitan dengan SibSp dan Parch, yang menggambarkan jumlah keluarga, tetapi pengaruhnya kecil.