Persiapan Data

Membaca data Titanic

data <- read.csv("D:/PERKULIAHAN/Semester 4/Analisis Multivariat/archive/Titanic-Dataset.csv")

Memilih variabel yang digunakan

data_sebagian <- data[, c("Age", "SibSp", "Parch", "Fare")]

Mengecek jumlah missing value

sum(is.na(data_sebagian))
## [1] 177

Menghapus baris yang mengandung missing value

data_sebagian_bersih <- na.omit(data_sebagian)

Pembahasan

Correlation Matrix

correlation_matrix <- cor(data_sebagian_bersih)
correlation_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000
  • Age vs SibSp: -0.31 → hubungan negatif berlawanan. Artinya, semakin tua penumpang, saudara atau pasangan sedikit di kapal.

  • Age vs Parch: -0.19 → negatif lemah. Umur penumpang hampir tidak berpengaruh terhadap jumlah anak atau orang tua yang ikut di kapal.

  • Age vs Fare: 0.096 → positif lemah. Umur penumpang hampir tidak memengaruhi harga tiket.

  • SibSp vs Parch: 0.38 → positif. Semakin banyak saudara/pasangan yang ikut, semakin banyak anak/orang tua yang ikut.

  • SibSp vs Fare: 0.14 → positif lemah. Jumlah saudara/pasangan sedikit memengaruhi harga tiket.

  • Parch vs Fare: 0.21 → positif lemah. Jumlah anak/orang tua sedikit memengaruhi harga tiket.

Hubungan paling terlihat adalah SibSp dengan Parch.

Variance-Covariance Matrix

variance_covariance_Matrix <- cov(data_sebagian_bersih)
variance_covariance_Matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
  1. Varians
  • Age = 211.02 → umur penumpang cukup bervariasi.
  • SibSp = 0.86 → jumlah saudara/pasangan relatif kecil variasinya.
  • Parch = 0.73 → jumlah anak/orang tua hampir sama.
  • Fare = 2800.41 → harga tiket sangat bervariasi, jauh lebih besar dibanding variabel lain.
  1. Kovarians
  • Age vs SibSp = -4.16 → negatif → semakin tua, saudara/pasangan semakin sedikit yang ikut di dalam kapal.
  • Age vs Parch = -2.34 → negatif → makin tua, jumlah anak/orang tua semakin sedikit.
  • Age vs Fare = 73.85 → positif → semakin tua umur, harga tiket semakin mahal. Namun angka yang bear ini bukan berarti korelasinya tinggi tapi dikarenakan nominal angka yang lumayan besar.
  • SibSp vs Parch = 0.30 → positif → jumlah saudara/pasangan naik anak/orang tua juga cenderung naik.
  • SibSp vs Fare = 6.81, Parch vs Fare = 9.26 → positif → jumlah keluarga sedikit memengaruhi harga tiket.

Eigen Value dan Eigen Vector

eigenvalue_eigenvector<- eigen(variance_covariance_Matrix)
eigenvalue_eigenvector
## eigen() decomposition
## $values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
## 
## $vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652
  1. Eigenvalue
  • 2802.56 → komponen pertama menjelaskan mayoritas variasi, dominan variabel Fare
  • 209.04 → komponen kedua menjelaskan variasi sedang, dominan Age
  • 0.94 & 0.48 → komponen 3 & 4 → menjelaskan hampir tidak ada variasi
  1. Eigenvektor (angka menunjukkan besar variasi di setiap komponen)
  • Komponen terbesar pertama = 0.999586200 yaitu Fare
  • Komponen terbesar kedua = 0.99929943 yaitu (Age)
  • Komponen terbesar ketiga = 0.6332099362 (SibSp)
  • Komponen terbesar keempat = 0.003280818 (Parch)