Import Data

filenya disimpan di directory

Titanic.Dataset <- read.csv("C:/SEM4/Titanic-Dataset.csv")
class(Titanic.Dataset)
## [1] "data.frame"

Seleksi Kolom

Mengambil kolom yang sudah ditentukan menggunakan c agar kolom yang dipilih digabungkan menjadi satu set.

titanic_new <- Titanic.Dataset[, c("Age", "SibSp", "Parch", "Fare")]

Cek Missing Value

sum(is.na(titanic_new))
## [1] 177

Menghapus Missing Value

titanic_new <- na.omit(titanic_new)

Data Setelah Dibersihkan

print("Data:")
## [1] "Data:"
head(titanic_new)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625
nrow(titanic_new)
## [1] 714

Menampilkan Kolom Terpilih

View(titanic_new)

Perbandingan Data Sebelum dan Sesudah

nrow(Titanic.Dataset)
## [1] 891
nrow(titanic_new)
## [1] 714

Correlation Matrix

Matriks korelasi digunakan untuk melihat hubungan linear antar variabel pada data, yaitu Age, SibSp, Parch, dan Fare. Nilai korelasi berada pada rentang -1 hingga 1. Nilai mendekati 1 menunjukkan hubungan positif kuat, artinya kedua variabel cenderung meningkat bersama. Nilai mendekati -1 menunjukkan hubungan negatif kuat, artinya ketika satu variabel meningkat, variabel lain menurun. Nilai mendekati 0 menunjukkan hubungan yang lemah atau tidak ada hubungan linear. contoh: Age – SibSp (−0.308) Hubungan negatif sedang, artinya penumpang yang lebih muda cenderung bepergian dengan lebih banyak saudara atau pasangan.

korelasi_matrix <- cor(titanic_new)
korelasi_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Variance–Covariance Matrix

Matriks kovarians digunakan untuk melihat arah hubungan antar variabel serta tingkat penyebaran data. Nilai pada diagonal matriks menunjukkan variansi masing-masing variabel, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel. Kovarians bernilai positif menandakan dua variabel cenderung meningkat bersama. Kovarians bernilai negatif menandakan hubungan berlawanan arah. Kovarians mendekati nol menunjukkan hubungan yang lemah. contoh kovarians; Variansi Age = 211.02 Menunjukkan bahwa usia penumpang memiliki penyebaran yang cukup besar.

kovarians_matrix <- cov(titanic_new)
kovarians_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Eigen Value dan Eigen Vector

  1. Eigen value menunjukkan seberapa besar variasi data yang dijelaskan oleh setiap komponen utama. Komponen dengan eigen value terbesar merupakan komponen yang paling dominan dalam menjelaskan struktur data.
  2. Eigen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama. Nilai absolut yang besar menandakan variabel yang paling berpengaruh, sedangkan tanda positif atau negatif tidak memengaruhi interpretasi. contoh: 1.Komponen 1 (1.6368) menjelaskan variasi paling besar. 2.Komponen 1 dipengaruhi kuat oleh SibSp (-0.625) dan Parch (-0.591) → merepresentasikan hubungan struktur keluarga penumpang.
eigen_result <- eigen(korelasi_matrix)
eigen_result <- eigen(korelasi_matrix)

eigen_result$values
## [1] 1.6367503 1.1071770 0.6694052 0.5866676
eigen_result$vectors
##            [,1]       [,2]        [,3]        [,4]
## [1,]  0.4388714 -0.5962415  0.56095237  0.37043268
## [2,] -0.6250770  0.0732461  0.05500006  0.77517016
## [3,] -0.5908590 -0.1774532  0.60558695 -0.50265342
## [4,] -0.2599159 -0.7795136 -0.56175785 -0.09607493