Deskripsi Tugas Analisis Multivariat

Tugas ini dilakukan untuk mengetahui hubungan antar variabel yang ada di dalam dataset Titanic-Dataset.csv. Pada tugas ini hanya menggunakan 4 variabel, yaitu Age, SibSp, Parch, dan Fare. Data yang terdapat missing value pada variabel-variabel tersebut akan dihapus agar analisis lebih akurat. Lalu, hubungan antar variabel dianalisis menggunakan matriks korelasi, matriks varians-kovarians, serta nilai eigen dan vektor eigen.

Membaca Data CSV dan Cleaning Missing Values

titanic <- read.csv("Titanic-Dataset.csv")
head(titanic)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q
kolom <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
cleaning_kolom <- na.omit(kolom)

Matriks Korelasi

cor(cleaning_kolom)
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Dapat dilihat dari matriks korelasi tersebut bahwa variabel Age tidak menunjukkan adanya korelasi antar variabel lain karena nilainya yang sangat rendah, terlihat pada variabel Age dan variabel Fare menunjukkan angka yang rendah, itu menunjukkan bahwa umur tidak mempegaruhi harga tiket. Variabel SibSp dengan variabel Parch menunjukkan nilai korelasi yang cukup tinggi itu artinya variabel SibSp mempengaruhi variabel Parch, jadi semakin banyak penumpang yang mempunyai saudara, maka semakin banyak juga jumlah anggota yang diajak bepergian.

Matriks Varians-Kovarians

cov(cleaning_kolom)
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Dapat dilihat bahwa hasil dari varians variabel Fare menunjukkan nilai tertinggi diantara variabel lainnya, juga nilai kovarians positif variabel Fare dengan variabel Parch menunjukkan bahwa penumpang yang lebih tua cenderung membayar tiket lebih mahal, jika variabel Age meningkat maka variabel Fare juga meningkat. Sedangkan nilai kovarians negatif antar variabel Age dengan variabel Parch, ketika variabel Age meningkat maka variabel Parch menurun dan sebaliknya, ini menunjukkan bahwa penumpang yang lebih tua cenderung tidak bepergian dengan orang tua/anak.

Nilai Eigen dan Vektor Eigen

eigen(cov(cleaning_kolom))
## eigen() decomposition
## $values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
## 
## $vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Dapat dilihat dari hasil nilai eigen terbesar terdapat pada komponen utama pertama, yang menunjukan bahwa sebagian besar variasi data dijelaskan oleh komponen tersebut, komponen utama kedua juga masih memberikan kontribuasi variasi yang cukup signifikan, dan dua komponen utama terakhir memiliki nilai eigen yang sangat kecil sehingga kontribusinya terhadap variasi data relatif kecil. Hasil vektor eigen menunjukkan bahwa pada komponen utama pertama variabel Fare memiliki koefisien paling besar, itu artinya komponen utama pertama didominasi oleh variabel Fare. Sedangkan, pada komponen utama kedua, variabel Age memiliki koefisien paling besar dibandingkan variabel lainnya, yang menunjukkan bahwa variasi umur penumpang menjadi faktor utama dalam menjelaskan variasi data pada komponen tersebut. Variabel SibSp dan Parch hanya memberikan kontribusi yang relatif kecil terhadap komponen-komponen utama tersebut.