Upload data

data <- read.csv(file.choose(), stringsAsFactors = FALSE)

tes

head(data)

Cleaning

Pilih 4 kolom

data_pilih <- data[, c(“Age”, “SibSp”, “Parch”, “Fare”)]

Hapus baris yang ada NA ny

data_clean <- data_pilih[complete.cases(data_pilih), ]

tes2

head(data_clean)

Correlation Matrix

corr_matrix <- cor(data_clean) print(round(corr_matrix, 4))

Penjelasan hasil Correlation Matrix:

  • Korelasi tertinggi adalah antara SibSp dan Parch (sekitar 0.38), artinya semakin banyak saudara/pasangan yang dibawa, cenderung semakin banyak orang tua/anak yang ikut (hubungan positif sedang).

  • Age dan SibSp memiliki korelasi negatif sedang (-0.30), menunjukkan bahwa penumpang yang lebih tua cenderung bepergian dengan lebih sedikit saudara/pasangan.

  • Fare memiliki korelasi positif lemah dengan SibSp (0.13) dan Parch (0.20), mengindikasikan keluarga besar cenderung membayar tiket lebih mahal.

  • Age hampir tidak berkorelasi dengan Fare (0.09), artinya usia tidak memengaruhi harga tiket.

Variance-Covariance Matrix

cov_matrix <- cov(data_clean) round(cov_matrix, 4)

  • Fare memiliki variansi paling besar (sekitar 2800), artinya harga tiket sangat bervariasi (ada tiket murah hingga yang sangat mahal).

  • Age variansi sekitar 211 (standar deviasi ~14.5 tahun), usia penumpang cukup tersebar (ada yang bayi hingga lanisa).

  • SibSp dan Parch variansinya kecil (<1), kebanyakan penumpang bepergian sendiri atau dengan beberapa (1–2) anggota keluarga saja.

Eigenvalues & Eigenvectors

eig <- eigen(cov_matrix) round(eig\(values, 4) round(eig\)vectors, 4)

Eigenvector = arah utama di mana data paling banyak tersebar

pc1 = 2802.56 → sangat besar sekali pc2 = 209.04 → kolom masih cukup besar pc3 = 0.94 → sangat kecil pc4 = 0.48 → sangat kecil Artinya: 2 komponen utama pertama sudah menangkap hampir semua informasi penting.

Eigenvectors menunjukkan “komposisi” setiap PC (arah variansi)

  • pc1 (eigenvalue terbesar): koefisien Fare ≈ 0.9996 → PC1 hampir sepenuhnya mewakili Fare (arah variansi terbesar = perbedaan harga tiket).

  • pc2: koefisien Age ≈ 0.9993 → PC2 hampir murni mewakili Age (arah kedua = perbedaan usia).

  • pc3 & pc4: lebih banyak dimuat oleh SibSp dan Parch (koefisien besar di -0.77 s/d 0.63) → ini arah “ukuran keluarga”, tapi pengaruhnya sangat kecil terhadap variansi total.

Kesimpulan

  • Data ini sangat didominasi oleh Fare (skala besar dan variansi tinggi), diikuti Age.

  • SibSp dan Parch punya hubungan sedang satu sama lain, tapi tidak terlalu memengaruhi variansi keseluruhan.