Menganalisis statistik pada dataset Titatnic dengan menggunakan variabel Age, SibSp, Parch, dan Fare. Awalnya data dibersihkan dari missing values lalu dianalisis menggunakan correlation matrix, variance-covariance matrix, eigen value dan eigen vector untuk memahami hubungan dan antar variabel.

data_titanic <- read.csv("Titanic-Dataset.csv", header = TRUE, stringsAsFactors = FALSE)

Menghapus row dengan missing values

kolom <- data_titanic[c("Age", "SibSp", "Parch", "Fare")]
cleaning <- na.omit(kolom)
head(cleaning)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

Correlation Matrix

cor(cleaning)
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Correlation mengukur seberapa kuat dan ke arah mana hubungan linier antara dua variabel. Nilai positif berarti kedua variabel cenderung meningkat bersama, nilai negatif berarti salah satu meningkat saat yang lain menurun, dan nilai mendekati nol berarti hubungan linier sangat lemah. Dilihat dari hasil correlation matrix, tidak ada correlation yang kuat antar variabel. Hubungan yang paling kuat adalah SibSp dan Parch, artinya penumpang yang membawa saudara/pasangan sering juga membawa orang tua/anak. Sementara itu, Age dan Fare memiliki hubungan yang lemah, artinya usia hampir tidak berpengaruh pada harga tiket.

Variance-Covariance Matrix

cov(cleaning)
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Matrix ini menunjukkan seberapa besar variance tiap variabel serta bagaimana dua variabel berubah bersama. Nilai pada diagonal utama adalah variance, sedangkan nilai di luar diagonal disebut covariance. Hasilnya memperlihatkan bahwa Fare memiliki variasi paling besar, artinya perbedaan harga tiket antar penumpang sangat tinggi. Sementara itu, SibSp dan Parch variasinya kecil, karena kebanyakan penumpang tidak membawa banyak anggota keluarga. Covariance menunjukkan bahwa SibSp dan Parch bernilai positif artinya penumpang yang membawa saudara/pasangan sering juga membawa orang tua/anak. Sedangkan Age dan SibSp bernilai negatif, artinya ketika usia meningkat, jumlah saudara/pasangan yang ikut cenderung menurun.

Eigen Value dan Eigen Vector

eigen(cov(cleaning))
## eigen() decomposition
## $values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
## 
## $vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Eigen value menunjukkan seberapa besar variasi data yang dijelaskan oleh setiap komponen utama. Eigenvalue pertama sangat besar, artinya sebagian besar variasi data dijelaskan oleh satu komponen utama. Eigenvalue kedua masih menjelaskan variasi, tetapi jauh lebih kecil. Eigenvalue ketiga dan keempat sangat kecil, artinya kontribusinya terhadap variasi data sangat rendah.

Eigen vector menunjukkan arah atau kombinasi variabel yang membentuk komponen utama. Eigenvector pertama didominasi oleh Fare, artinya variasi terbesar data terutama dipengaruhi oleh perbedaan harga tiket. Eigenvector kedua didominasi oleh Age, sehingga usia menjadi faktor variasi penting berikutnya. Eigenvector ketiga dan keempat lebih berkaitan dengan SibSp dan Parch, yang menggambarkan jumlah keluarga, tetapi pengaruhnya kecil.