Tugas

Membahas tentang : a) Correlation Matrix b) Variance-Covariance Matrix c) Eigen value dan eigen vector

Berikut langkah langkah dan juga penjelasan output yang dihasilkan.

1. Import Data ke R

Data diimpor ke dalam R menggunakan fungsi read.csv() dan disimpan dalam sebuah data frame.

df <- read.csv("Titanic-Dataset.csv")

2. Pilih kolom yang diperlukan dan hapus row dengan missing value

Kolom yang digunakan yaitu Age, SibSp, Parch, dan Fare. Baris data yang terdapat missing value dihapus.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
df_clean <- df %>%
dplyr::select( Age, SibSp, Parch, Fare) %>%
na.omit()

str(df_clean)
## 'data.frame':    714 obs. of  4 variables:
##  $ Age  : num  22 38 26 35 35 54 2 27 14 4 ...
##  $ SibSp: int  1 1 0 1 0 0 3 0 1 1 ...
##  $ Parch: int  0 0 0 0 0 0 1 2 0 1 ...
##  $ Fare : num  7.25 71.28 7.92 53.1 8.05 ...
##  - attr(*, "na.action")= 'omit' Named int [1:177] 6 18 20 27 29 30 32 33 37 43 ...
##   ..- attr(*, "names")= chr [1:177] "6" "18" "20" "27" ...
head(df_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

3. Correlatio Matrix

Matriks korelasi menunjukkan hubungan linear antar variabel dengan nilai antara -1 sampai 1.

cor_matrix <- cor(df_clean)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Berdasarkan output : a.) Korelasi Age dan SibSp yaitu -0.308 menunjukkan hubungan negatif lemah hingga sedang, artinya penumpang yang lebih tua cenderung memiliki lebih sedikit saudara atau pasangan. b.) Korelasi Age dan Parch yautu -0.189 menunjukkan hubungan negatif lemah antara usia dan jumlah orang tua atau anak. c.) Korelasi Age dan Fare yaitu 0.096 menunjukkan hubungan yang sangat lemah, sehingga usia hampir tidak berpengaruh terhadap harga tiket. d.)Korelasi SibSp dan Parch yaitu 0.384 menunjukkan hubungan positif sedang, artinya penumpang yang membawa saudara/pasangan biasanya juga membawa orang tua atau anak. e.) Korelasi SibSp dan Fare yaitu 0.138 dan Parch dan Fare yaitu 0.205 menunjukkan hubungan positif lemah, di mana jumlah anggota keluarga sedikit memengaruhi harga tiket.

4. Variance-Covariance Matrix

Matriks kovarians menggambarkan seberapa besar dua variabel berubah secara bersama-sama.

cov_matrix <- cov(df_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Berdasarkan output : Varians tertinggi terdapat pada Fare (2800.413) yang menunjukkan harga tiket memiliki variasi paling besar, sedangkan varians terendah terdapat pada Parch (0.728) yang berarti jumlah orang tua atau anak memiliki variasi paling kecil. Kovarians Age dan SibSp , Age dan Parch bernilai negatif, sedangkan kovarians antara variabel keluarga dan Fare bernilai positif, menunjukkan arah hubungan antar variabel.

5.Eigen value dan eigen vector

eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_result$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

a.) Nilai eigen terbesar adalah 2802.56, yang menunjukkan bahwa komponen utama pertama menjelaskan variasi data paling besar. Nilai eigen terkecil adalah 0.48, yang berarti komponen terakhir hanya menjelaskan variasi yang sangat kecil. Hal ini menunjukkan bahwa sebagian besar informasi data terkonsentrasi pada komponen utama pertama.

b.) Eigen vector menunjukkan kontribusi masing-masing variabel terhadap setiap komponen utama. Pada komponen utama pertama, nilai terbesar berasal dari Fare (0.9996) sehingga variasi data paling banyak dipengaruhi oleh harga tiket. Variabel lain memiliki kontribusi yang jauh lebih kecil pada komponen ini, sehingga pengaruh utamanya berasal dari Fare.