data_titanic <- read.csv ("C:/Users/USER/Downloads/titanic_dataset/Titanic-Dataset.csv" , sep = ",")

Kode tersebut digunakan untuk membaca file dataset Titanic berformat CSV dari lokasi di komputer, lalu menyimpannya ke dalam variabel data_titanic agar dapat dianalisis di R.

# Ambil kolom yang dibutuhkan
data_selected <- data_titanic[, c("Age", "SibSp", "Parch", "Fare")]

kode di atas digunakan untuk mengambil kolom Age, SibSp, Parch, dan Fare dari dataset data_titanic, lalu menyimpannya ke dalam variabel baru bernama data_selected.

# Hapus baris yang memiliki NA
data_clean <- na.omit(data_selected)

ini digunakan untuk menghapus semua baris pada data_selected yang memiliki nilai kosong (NA), lalu menyimpan hasilnya ke dalam variabel data_clean.

# mau lihat hasilnya
head(data_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625
# SOAL NO 3a Correlation Matrix
cor_matrix <- cor(data_clean)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000
# SOAL NO 3b Variance-Covariance Matrix
cov_matrix <- cov(data_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
# SOAL NO 3c Eigen decomposition dari covariance matrix
eigen_result <- eigen(cov_matrix)
# SOAL NO 3c Eigen values
eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
#  SOAL NO 3D PENJELASAN UNTUK HASIL DARI SETIAP OUTPUT
  1. Head(data_clean) Output ini menampilkan 6 baris pertama dari dataset yang sudah dibersihkan dari nilai kosong (NA). Tujuannya adalah untuk memastikan bahwa data sudah siap digunakan dan hanya berisi variabel numerik yaitu Age, SibSp, Parch, dan Fare.

  2. Correlation Matrix Matriks korelasi menunjukkan tingkat hubungan antar variabel dengan nilai antara -1 hingga 1. Terlihat bahwa SibSp dan Parch memiliki korelasi positif cukup kuat (~0.38) yang berarti penumpang yang membawa saudara/spouse cenderung juga membawa orang tua atau anak. Sementara itu, Age memiliki korelasi negatif lemah dengan SibSp (-0.31), yang mengindikasikan bahwa penumpang yang lebih tua cenderung membawa lebih sedikit saudara.

  3. Variance-Covariance Matrix Matriks ini menunjukkan seberapa besar variabilitas setiap variabel serta hubungan antar variabel dalam satuan aslinya. Variabel Fare memiliki varians paling besar (~2800), yang berarti harga tiket memiliki penyebaran data paling tinggi dibandingkan variabel lainnya. Kovarians positif menunjukkan hubungan searah, sedangkan kovarians negatif menunjukkan hubungan berlawanan.

  4. Eigen Decomposition (Eigenvalues) Eigenvalues ini berguna untuk melihat seberapa besar informasi atau variasi data yang dapat dijelaskan oleh setiap komponen utama. Nilai eigen pertama itu (≈2802.56) jauh lebih besar dibandingkan yang lain, sehingga dapat disimpulkan bahwa sebagian besar variasi data didominasi oleh satu komponen utama, kemungkinan besar dipengaruhi oleh variabel Fare karena memiliki varians tertinggi.